論文の概要: GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
- arxiv url: http://arxiv.org/abs/2509.26016v1
- Date: Tue, 30 Sep 2025 09:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.087717
- Title: GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
- Title(参考訳): GeoLink: OpenStreetMapデータによるリモートセンシング基盤モデルの強化
- Authors: Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du,
- Abstract要約: この研究は、リモートセンシング(RS)基礎モデル(FM)を強化するためにOpenStreetMap(OSM)データを活用するフレームワークであるGeoLinkを提示する。
特に、GeoLinkはOSMデータから派生した多粒性学習信号を用いたRS自己教師型事前学習を強化する。
下流タスクでは、GeoLinkは広範囲のアプリケーションをサポートするために、一様および多モードのきめ細かいエンコーディングを生成する。
- 参考スコア(独自算出の注目度): 13.450535648972682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating ground-level geospatial data with rich geographic context, like OpenStreetMap (OSM), into remote sensing (RS) foundation models (FMs) is essential for advancing geospatial intelligence and supporting a broad spectrum of tasks. However, modality gap between RS and OSM data, including differences in data structure, content, and spatial granularity, makes effective synergy highly challenging, and most existing RS FMs focus on imagery alone. To this end, this study presents GeoLink, a multimodal framework that leverages OSM data to enhance RS FM during both the pretraining and downstream task stages. Specifically, GeoLink enhances RS self-supervised pretraining using multi-granularity learning signals derived from OSM data, guided by cross-modal spatial correlations for information interaction and collaboration. It also introduces image mask-reconstruction to enable sparse input for efficient pretraining. For downstream tasks, GeoLink generates both unimodal and multimodal fine-grained encodings to support a wide range of applications, from common RS interpretation tasks like land cover classification to more comprehensive geographic tasks like urban function zone mapping. Extensive experiments show that incorporating OSM data during pretraining enhances the performance of the RS image encoder, while fusing RS and OSM data in downstream tasks improves the FM's adaptability to complex geographic scenarios. These results underscore the potential of multimodal synergy in advancing high-level geospatial artificial intelligence. Moreover, we find that spatial correlation plays a crucial role in enabling effective multimodal geospatial data integration. Code, checkpoints, and using examples are released at https://github.com/bailubin/GeoLink_NeurIPS2025
- Abstract(参考訳): OpenStreetMap (OSM) のようなリッチな地理空間データとリモートセンシング基盤モデル (FM) を統合することは、地理空間的インテリジェンスを向上し、幅広いタスクをサポートするために不可欠である。
しかし、データ構造、内容、空間的粒度の違いを含む、RSとOSMデータのモダリティギャップは、効果的なシナジーを極めて困難にし、既存のRS FMは画像のみに焦点を当てている。
そこで本研究では,OSMデータを利用したマルチモーダルフレームワークであるGeoLinkについて述べる。
特にGeoLinkは,OSMデータから導出される多粒性学習信号を用いて,情報インタラクションと協調のための空間的相互相関によって誘導されたRS自己教師型事前学習を強化する。
また、効率的な事前トレーニングのためのスパース入力を可能にするイメージマスク再構成も導入している。
下流タスクでは、GeoLinkは、土地被覆分類のような一般的なRS解釈タスクから、都市機能ゾーンマッピングのようなより包括的な地理的タスクまで、幅広いアプリケーションをサポートするために、一様および多モードのきめ細かいエンコーディングを生成する。
大規模な実験により、事前トレーニング中にOSMデータを組み込むことで、RS画像エンコーダの性能が向上する一方で、下流タスクでRSデータとOSMデータを融合させることで、複雑な地理的シナリオへのFMの適応性が向上することが示された。
これらの結果は、高レベルの地理空間人工知能の進歩におけるマルチモーダル・シナジーの可能性を強調している。
さらに,空間相関は,効果的なマルチモーダル地理空間データ統合を実現する上で重要な役割を担っている。
コード、チェックポイント、使用例はhttps://github.com/bailubin/GeoLink_NeurIPS2025で公開されている。
関連論文リスト
- UrbanMIMOMap: A Ray-Traced MIMO CSI Dataset with Precoding-Aware Maps and Benchmarks [33.93643630910854]
第6世代(6G)システムは、ネイティブ人工知能(AI)と統合センシング通信(ISAC)によって駆動される環境対応通信を必要とする
電磁(EM)シミュレーションによる高忠実なRM基底真理の生成は、計算集約的で、機械学習(ML)ベースのRM構築を動機付けている。
大規模都市マルチインプットマルチアウトプット(MIMO)データセットであるUrbanMIMOMapを提案する。
論文 参考訳(メタデータ) (2025-09-08T01:23:46Z) - GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations [5.439918212297177]
マルチモーダルなGeoFM開発における主要な課題は、モダリティ間の地理空間関係を明示的にモデル化することである。
オーバヘッドRSデータ,ストリートビュー画像,それらの位置情報メタデータを統合した,新しいマルチモーダルなGeoFMアーキテクチャであるGAIRを提案する。
GAIRは、RS画像ベース、SV画像ベース、位置埋め込みベースベンチマークにまたがる10の空間的タスクにまたがって評価される。
論文 参考訳(メタデータ) (2025-03-20T19:59:39Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,エージェント間のグローバルマップモデルを生データを送信することなく,協調的にトレーニングするフェデレーション型マルチエージェントマッピング手法を提案する。
提案手法は暗黙的ニューラルマッピングを利用してパシモニアスで適応可能な表現を生成し,生のマップと比較して最大93.8%のデータを伝送する。
我々は,火星の地形や氷河のデータセットに対するアプローチの有効性を実証し,F1スコアを0.95ポイントまで下方経路計画を達成するとともに,地図の復元損失に勝る結果を得た。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。