論文の概要: Beyond AlphaEarth: Toward Human-Centered Spatial Representation via POI-Guided Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.09894v1
- Date: Fri, 10 Oct 2025 22:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.675445
- Title: Beyond AlphaEarth: Toward Human-Centered Spatial Representation via POI-Guided Contrastive Learning
- Title(参考訳): AlphaEarthを超えて: POI-Guided Contrastive Learningによる人間中心の空間表現を目指して
- Authors: Junyuan Liu, Quan Qin, Guangsheng Dong, Xinglei Wang, Jiazhuang Feng, Zichao Zeng, Tao Cheng,
- Abstract要約: AETHER(AlphaEarth-POI Enriched Representation Learning)は、関心のポイント(POI)で案内される多モードアライメントを通して、AlphaEarthを人間中心の都市分析に適用する
グレーター・ロンドンでは、AETHERは、土地利用分類F1の相対的な改善が7.2%、社会経済マッピングのクルバック・リーブラー分岐の相対的な減少が23.6%である。
- 参考スコア(独自算出の注目度): 0.8677773374912304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose spatial representations are essential for building transferable geospatial foundation models (GFMs). Among them, the AlphaEarth Foundation (AE) represents a major step toward a global, unified representation of the Earth's surface, learning 10-meter embeddings from multi-source Earth Observation (EO) data that capture rich physical and environmental patterns across diverse landscapes. However, such EO-driven representations remain limited in capturing the functional and socioeconomic dimensions of cities, as they primarily encode physical and spectral patterns rather than human activities or spatial functions. We propose AETHER (AlphaEarth-POI Enriched Representation Learning), a lightweight framework that adapts AlphaEarth to human-centered urban analysis through multimodal alignment guided by Points of Interest (POIs). AETHER aligns AE embeddings with textual representations of POIs, enriching physically grounded EO features with semantic cues about urban functions and socioeconomic contexts. In Greater London, AETHER achieves consistent gains over the AE baseline, with a 7.2% relative improvement in land-use classification F1 and a 23.6% relative reduction in Kullback-Leibler divergence for socioeconomic mapping. Built upon pretrained AE, AETHER leverages a lightweight multimodal alignment to enrich it with human-centered semantics while remaining computationally efficient and scalable for urban applications. By coupling EO with human-centered semantics, it advances geospatial foundation models toward general-purpose urban representations that integrate both physical form and functional meaning.
- Abstract(参考訳): 汎用空間表現は、転送可能な地理空間基盤モデル(GFM)の構築に不可欠である。
中でもAlphaEarth Foundation(AE)は、地球表面のグローバルで統一された表現に向けた大きな一歩であり、多様な地形をまたいだリッチな物理的および環境パターンを捉えたマルチソース地球観測(EO)データから10メートルの埋め込みを学習している。
しかしながら、これらのEOによる表現は、人間の活動や空間機能ではなく、身体的およびスペクトル的パターンを主にエンコードしているため、都市の機能的および社会経済的次元の把握に限られている。
AETHER(AlphaEarth-POI Enriched Representation Learning)は、AlphaEarthを人間中心の都市分析に適応させる軽量なフレームワークである。
AETHERは、AE埋め込みをPOIのテキスト表現と整合させ、物理的に基底付けられたEO特徴を都市機能や社会経済の文脈に関する意味的な手がかりで強化する。
グレーター・ロンドンでは、AETHERは、土地利用分類F1の相対的な改善が7.2%、社会経済マッピングのクルバック・リーブラー分岐の相対的な減少が23.6%である。
AETHERは、事前訓練されたAEに基づいて構築され、軽量なマルチモーダルアライメントを利用して、人間中心のセマンティクスでそれを強化しつつ、計算効率が良く、都市のアプリケーションにもスケーラブルである。
EOと人間中心のセマンティクスを結合することにより、物理形式と機能的意味の両方を統合する汎用都市表現に向けて、地理空間基盤モデルを前進させる。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - Enriching Location Representation with Detailed Semantic Information [0.6554326244334866]
CaLLiPer+は、POI(Point-of-Interest)とカテゴリラベルを統合するCaLLiPerモデルの拡張である。
本研究では、土地利用分類と社会経済状態分布マッピングという2つの下流課題において、その効果を評価する。
論文 参考訳(メタデータ) (2025-06-03T11:06:51Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - MobCLIP: Learning General-purpose Geospatial Representation at Scale [0.7224497621488285]
全国初の汎用位置情報エンコーダであるMobCLIPについて紹介する。
新たなCLIPベースのアーキテクチャを採用することで、1億以上のPOI、全国的なリモートセンシング画像、および10億のエッジモビリティグラフによる構造化された人口統計を調整できる。
我々は,MobCLIPが最先端モデルよりも平均35%優れた汎用予測性能を実現することを示した。
論文 参考訳(メタデータ) (2025-06-02T04:14:03Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - No Location Left Behind: Measuring and Improving the Fairness of Implicit Representations for Earth Data [13.412573082645096]
暗黙の神経表現(INR)は、地球表象の課題に対処する上での公約が増大している。
既存の手法はグローバルな平均性能を不均等に優先する。
FAIR-Earthは、地球表象の不等式を調べ、挑戦するための第一種データセットである。
論文 参考訳(メタデータ) (2025-02-05T16:51:13Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。