論文の概要: GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations
- arxiv url: http://arxiv.org/abs/2503.16683v1
- Date: Thu, 20 Mar 2025 19:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:24.116239
- Title: GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations
- Title(参考訳): GAIR:Geo-Aligned Implicit Representationを用いたマルチモーダルジオファウンデーションモデルの改良
- Authors: Zeping Liu, Fan Zhang, Junfeng Jiao, Ni Lao, Gengchen Mai,
- Abstract要約: マルチモーダルなGeoFM開発における主要な課題は、モダリティ間の地理空間関係を明示的にモデル化することである。
オーバヘッドRSデータ,ストリートビュー画像,それらの位置情報メタデータを統合した,新しいマルチモーダルなGeoFMアーキテクチャであるGAIRを提案する。
GAIRは、RS画像ベース、SV画像ベース、位置埋め込みベースベンチマークにまたがる10の空間的タスクにまたがって評価される。
- 参考スコア(独自算出の注目度): 5.439918212297177
- License:
- Abstract: Advancements in vision and language foundation models have inspired the development of geo-foundation models (GeoFMs), enhancing performance across diverse geospatial tasks. However, many existing GeoFMs primarily focus on overhead remote sensing (RS) data while neglecting other data modalities such as ground-level imagery. A key challenge in multimodal GeoFM development is to explicitly model geospatial relationships across modalities, which enables generalizability across tasks, spatial scales, and temporal contexts. To address these limitations, we propose GAIR, a novel multimodal GeoFM architecture integrating overhead RS data, street view (SV) imagery, and their geolocation metadata. We utilize three factorized neural encoders to project an SV image, its geolocation, and an RS image into the embedding space. The SV image needs to be located within the RS image's spatial footprint but does not need to be at its geographic center. In order to geographically align the SV image and RS image, we propose a novel implicit neural representations (INR) module that learns a continuous RS image representation and looks up the RS embedding at the SV image's geolocation. Next, these geographically aligned SV embedding, RS embedding, and location embedding are trained with contrastive learning objectives from unlabeled data. We evaluate GAIR across 10 geospatial tasks spanning RS image-based, SV image-based, and location embedding-based benchmarks. Experimental results demonstrate that GAIR outperforms state-of-the-art GeoFMs and other strong baselines, highlighting its effectiveness in learning generalizable and transferable geospatial representations.
- Abstract(参考訳): ビジョンと言語基盤モデルの進歩はジオFM(Geo-Fundation Model)の発展にインスピレーションを与え、多様な地理空間的タスクのパフォーマンスを向上させる。
しかし、既存のGeoFMの多くは、地上レベルの画像のような他のデータモダリティを無視しながら、オーバーヘッドリモートセンシング(RS)データに重点を置いている。
マルチモーダルなGeoFM開発における重要な課題は、タスク、空間スケール、時間的コンテキストの一般化を可能にする、モダリティ間の地理空間関係を明示的にモデル化することである。
これらの制約に対処するために,オーバヘッドRSデータとストリートビュー(SV)画像と位置情報メタデータを統合した,新しいマルチモーダルなGeoFMアーキテクチャであるGAIRを提案する。
3つの因子化ニューラルエンコーダを用いて,SV画像とその位置,RS画像を埋め込み空間に投影する。
SV画像はRS画像の空間的フットプリント内に配置する必要があるが、その地理的中心に配置する必要はない。
SV画像とRS画像を地理的に整列させるために,連続的なRS画像表現を学習し,SV画像の位置情報に埋め込まれたRSを検索する新しい暗黙的ニューラル表現(INR)モジュールを提案する。
次に、これらの地理的に整合したSV埋め込み、RS埋め込み、位置埋め込みを、ラベルのないデータから対照的な学習目標を用いて訓練する。
GAIRは、RS画像ベース、SV画像ベース、位置埋め込みベースベンチマークにまたがる10の空間的タスクにまたがって評価される。
実験結果から, GAIRは現状のGeoFMや他の強力なベースラインよりも優れており, 一般化可能かつ伝達可能な地理空間表現の学習におけるその有効性を強調している。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence [39.86997089245117]
ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。
我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-13T19:50:17Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。