論文の概要: Spatial Representation Learning Beyond Pixels: Unifying Raster Data and Vector Semantics for Human-Centric Geospatial Foundation Models
- arxiv url: http://arxiv.org/abs/2606.02374v1
- Date: Mon, 01 Jun 2026 15:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.384697
- Title: Spatial Representation Learning Beyond Pixels: Unifying Raster Data and Vector Semantics for Human-Centric Geospatial Foundation Models
- Title(参考訳): 画像以外の空間表現学習:人中心空間基盤モデルのためのラスタデータとベクトルセマンティクスの統合
- Authors: Steffen Knoblauch, Hao Li, Gengchen Mai, Konstantin Klemmer, Song Gao, WenWen Li,
- Abstract要約: 自己教師型学習の最近の進歩は地球観測基礎モデル(EOFMs)を提起した
本稿では,ベクトルベース推論と認識を統合した統合埋め込み空間における共同空間表現学習(SRL)へのパラダイムシフトを提案する。
このような統合は、地球をより正確で、解釈可能で、根底から理解できる次世代の地理空間AIシステムの開発に不可欠である、と我々は主張する。
- 参考スコア(独自算出の注目度): 12.200359585933766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth Observation (EO) has fundamentally transformed the monitoring of environmental processes and human activities up to planetary scale. Recent advances in self-supervised learning have given rise to Earth Observation Foundation Models (EOFMs), which leverage petabyte-scale unlabeled EO data to learn transferable representations across a wide range of downstream geospatial tasks. Despite these advances, current EOFMs remain largely confined to raster modalities, overlooking the rich, structured information encoded in openly-accessible vector data sources such as OpenStreetMap and Overture. Vector data provides explicit and compact representations of geographic entities, including geometry, topology, and semantic relationships, offering critical contextual signals that are often ambiguous or inaccessible in imagery alone. Raster and vector data thus represent complementary views of geographic space: raster data captures continuous physical and spectral patterns, while vector data encodes discrete objects and their relational structure and often represents more of the human rather than the physical systems (e.g. social or demographic data). However, existing geospatial representation learning paradigms treat these modalities in isolation, relying on imperfect and often lossy transformations to bridge them. This perspective paper calls for a paradigm shift toward joint Spatial Representation Learning (SRL) in an unified embedding space that integrate raster perception with vector-based reasoning. Building on emerging efforts in multimodal geospatial learning, we highlight conceptual foundations, technical challenges, and promising directions for aligning heterogeneous spatial data sources. We contend that such integration is essential for developing next-generation geospatial AI systems capable of more accurate, interpretable, and semantically grounded understanding of the Earth.
- Abstract(参考訳): 地球観測(EO)は、環境プロセスと人間の活動の監視を惑星規模まで根本的に変えた。
近年,地球観測基礎モデル (EOFM) は, ペタバイト規模の未ラベルのEOデータを利用して, 下流の地理空間的タスクの伝達可能な表現を学習している。
これらの進歩にもかかわらず、現在のEOFMは、OpenStreetMapやOvertureのようなオープンアクセス可能なベクトルデータソースに符号化されたリッチで構造化された情報を見渡すことで、ラスタのモダリティに大きく依存している。
ベクトルデータは、幾何学、トポロジー、意味的関係を含む地理的実体の明示的でコンパクトな表現を提供し、画像だけではしばしば曖昧でアクセス不能な重要な文脈信号を提供する。
ラスターデータは連続した物理パターンとスペクトルパターンをキャプチャし、一方、ベクトルデータは離散オブジェクトとその関係構造を符号化し、しばしば物理的システム(例えば社会や人口統計データ)よりも人間を表現している。
しかし、既存の地理空間表現学習パラダイムは、これらのモダリティを単独で扱い、不完全でしばしば損失の多い変換に依存している。
本稿では,ラスタ認識とベクトルベース推論を融合した統合埋め込み空間における共同空間表現学習(SRL)へのパラダイムシフトを提案する。
マルチモーダルな地理空間学習における新たな取り組みを基盤として,概念基盤,技術的課題,異種空間データソースの整合化に向けた有望な方向性を論じる。
このような統合は、より正確で、解釈可能で、セマンティックに根ざした地球理解が可能な次世代の地理空間AIシステムの開発に不可欠である、と我々は主張する。
関連論文リスト
- GeoMamba: A Geometry-driven MambaVision Framework and Dataset for Fine-grained Optical-SAR Object Retrieval [54.741349848771144]
GeoMambaは光学SAR微細検索のための幾何学駆動フレームワークである。
GFIモジュールは、クロスモーダルな機能相互作用を強化し、構造的な事前を組み込む。
GeoMambaは既存の手法を上回り、全検索環境で63.3% mAPと77.0% Rank-1の精度を達成した。
論文 参考訳(メタデータ) (2026-05-19T12:08:09Z) - InfoGeo: Information-Theoretic Object-Centric Learning for Cross-View Generalizable UAV Geo-Localization [12.259964756337892]
クロスビューなジオローカライゼーションは、GPSを用いた環境での正確な位置決めとナビゲーションに欠かせない。
本稿では,堅牢性と一般化性を高めるための情報理論フレームワークであるInfoGeoを提案する。
InfoGeoは,ビュー間のオブジェクト中心構造関係を整列させることにより,ビュー不変情報を最大化すること,ビュー固有ノイズ信号の最小化という2つの目的により,情報ボトルネックプロセスとして最適化を再構築する。
論文 参考訳(メタデータ) (2026-05-08T01:28:49Z) - GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing [33.72621953693859]
GeoMeldは大規模なマルチモーダルデータセットで、約250万個の空間的に整列したサンプルがある。
GeoMeldは、エージェントキャプションフレームワークを通じて意味論的に基盤付けられた言語管理を提供する。
GeoMeld-FMは、アライメントされたモダリティ、JEPA表現学習、キャプション-ビジョンのコントラストアライメントを多言語で表した自動エンコーディングを組み合わせた事前トレーニングフレームワークである。
論文 参考訳(メタデータ) (2026-04-12T11:47:11Z) - GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z) - Self-Supervised Representation Learning for Geospatial Objects: A Survey [21.504978593542354]
自己教師付き学習(SSL)は、広範囲にラベル付けされた監督なしでデータから直接効果的で一般化可能な表現を学習できる能力に注目が集まっている。
本稿では,3種類の幾何学的ベクトルタイプ(ポイント,ポリライン,ポリゴン)において,地理空間オブジェクトに対して特別に適用または開発されたSSL技術について調査する。
地空間オブジェクトに対するSSLの出現傾向,特に地空間基盤モデルへの段階的な進歩について検討する。
論文 参考訳(メタデータ) (2024-08-22T05:28:22Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - Scalable Self-Supervised Representation Learning from Spatiotemporal
Motion Trajectories for Multimodal Computer Vision [0.0]
本稿では,GPSトラジェクトリから地理的位置の表現を学習するための自己教師付きラベルなし手法を提案する。
到達可能性埋め込みは意味論的に意味のある表現であり,精度・リコール曲線(AUPRC)測定値の領域を用いて測定すると,性能が4~23%向上することを示す。
論文 参考訳(メタデータ) (2022-10-07T02:41:02Z) - Reachability Embeddings: Scalable Self-Supervised Representation
Learning from Markovian Trajectories for Geospatial Computer Vision [0.0]
ラベルのないGPSトラジェクトリから地理的位置の表現を学習するための自己教師付き手法を提案する。
スケーラブルで分散されたアルゴリズムは、リーチビリティ・サマリーと呼ばれるイメージライクな表現を計算するために提示される。
到達可能性埋め込みは意味的に意味のある表現であり、結果として性能が4~23%向上することを示す。
論文 参考訳(メタデータ) (2021-10-24T20:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。