論文の概要: GeoBridge: A Semantic-Anchored Multi-View Foundation Model Bridging Images and Text for Geo-Localization
- arxiv url: http://arxiv.org/abs/2512.02697v1
- Date: Tue, 02 Dec 2025 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.860529
- Title: GeoBridge: A Semantic-Anchored Multi-View Foundation Model Bridging Images and Text for Geo-Localization
- Title(参考訳): GeoBridge: ジオローカライゼーションのための画像とテキストをブリッジするセマンティックなマルチビューファウンデーションモデル
- Authors: Zixuan Song, Jing Zhang, Di Wang, Zidie Zhou, Wenbin Liu, Haonan Guo, En Wang, Bo Du,
- Abstract要約: クロスビュージオローカライゼーションは、クエリ画像に視覚的に対応するジオタグ付き参照画像を取得することで位置を推測する。
従来の衛星中心のパラダイムは、高解像度または最新の衛星画像が利用できない場合にロバスト性を制限する。
ビュー間の双方向マッチングを行うモデルであるGeoBridgeを提案する。
- 参考スコア(独自算出の注目度): 36.20562550716618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization infers a location by retrieving geo-tagged reference images that visually correspond to a query image. However, the traditional satellite-centric paradigm limits robustness when high-resolution or up-to-date satellite imagery is unavailable. It further underexploits complementary cues across views (e.g., drone, satellite, and street) and modalities (e.g., language and image). To address these challenges, we propose GeoBridge, a foundation model that performs bidirectional matching across views and supports language-to-image retrieval. Going beyond traditional satellite-centric formulations, GeoBridge builds on a novel semantic-anchor mechanism that bridges multi-view features through textual descriptions for robust, flexible localization. In support of this task, we construct GeoLoc, the first large-scale, cross-modal, and multi-view aligned dataset comprising over 50,000 pairs of drone, street-view panorama, and satellite images as well as their textual descriptions, collected from 36 countries, ensuring both geographic and semantic alignment. We performed broad evaluations across multiple tasks. Experiments confirm that GeoLoc pre-training markedly improves geo-location accuracy for GeoBridge while promoting cross-domain generalization and cross-modal knowledge transfer. The dataset, source code, and pretrained models were released at https://github.com/MiliLab/GeoBridge.
- Abstract(参考訳): クロスビュージオローカライゼーションは、クエリ画像に視覚的に対応するジオタグ付き参照画像を取得することで位置を推測する。
しかし、従来の衛星中心のパラダイムは、高解像度または最新の衛星画像が利用できない場合に、ロバスト性を制限する。
さらに、ビュー(例:ドローン、衛星、通り)とモダリティ(例:言語、画像)の相補的な手がかりを過小評価している。
これらの課題に対処するため,ビュー間で双方向マッチングを行い,言語と画像の検索をサポートする基礎モデルGeoBridgeを提案する。
従来の衛星中心の定式化を超えて、GeoBridgeは、堅牢で柔軟なローカライゼーションのためのテキスト記述を通じて、マルチビュー機能をブリッジする新しいセマンティックアンカーメカニズムを構築している。
このタスクを支援するために、36か国から収集した5万組のドローン、ストリートビューパノラマ、衛星画像、およびそれらのテキスト記述からなる、最初の大規模、クロスモーダル、マルチビューアライメントデータセットであるGeoLocを構築し、地理的およびセマンティックアライメントの両立を保証する。
複数のタスクにまたがって幅広い評価を行った。
実験により、GeoLoc事前学習がGeoBridgeの位置情報精度を大幅に向上し、クロスドメインの一般化とクロスモーダルな知識伝達を促進することが確認された。
データセット、ソースコード、事前トレーニングされたモデルはhttps://github.com/MiliLab/GeoBridge.comでリリースされた。
関連論文リスト
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [23.297305067573316]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。