論文の概要: GeoRouter: Dynamic Paradigm Routing for Worldwide Image Geolocalization
- arxiv url: http://arxiv.org/abs/2603.24376v1
- Date: Wed, 25 Mar 2026 14:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.343632
- Title: GeoRouter: Dynamic Paradigm Routing for Worldwide Image Geolocalization
- Title(参考訳): GeoRouter: 世界規模の画像ジオローカライゼーションのための動的パラダイムルーティング
- Authors: Pengyue Jia, Derong Xu, Yingyi Zhang, Xiaopeng Li, Wenlin Zhang, Yi Wen, Yuanshao Zhu, Xiangyu Zhao,
- Abstract要約: ジオローカライゼーションは、地球上のどこでも撮影された画像の正確なGPS座標を予測することを目的としている。
最近の手法は主に、参照データベースとクエリを一致させる検索ベースアプローチと、座標を直接予測する生成ベースアプローチの2つのパラダイムに従う。
最適パラダイムに各クエリを適応的に割り当てる動的ルーティングフレームワークであるGeoを提案する。
- 参考スコア(独自算出の注目度): 27.99381782234921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide image geolocalization aims to predict precise GPS coordinates for images captured anywhere on Earth, which is challenging due to the large visual and geographic diversity. Recent methods mainly follow two paradigms: retrieval-based approaches that match queries against a reference database, and generation-based approaches that directly predict coordinates using Large Vision-Language Models (LVLMs). However, we observe distinct error profiles between them: retrieval excels at fine-grained instance matching, while generation offers robust semantic reasoning. This complementary heterogeneity suggests that no single paradigm is universally superior. To harness this potential, we propose GeoRouter, a dynamic routing framework that adaptively assigns each query to the optimal paradigm. GeoRouter leverages an LVLM backbone to analyze visual content and provide routing decisions. To optimize GeoRouter, we introduce a distance-aware preference objective that converts the distance gap between paradigms into a continuous supervision signal, explicitly reflecting relative performance differences. Furthermore, we construct GeoRouting, the first large-scale dataset tailored for training routing policies with independent paradigm predictions. Extensive experiments on IM2GPS3k and YFCC4k demonstrate that GeoRouter significantly outperforms state-of-the-art baselines.
- Abstract(参考訳): 世界規模の画像ジオローカライゼーションは、地球上のどこでも撮影された画像の正確なGPS座標を予測することを目的としている。
最近の手法は主に、参照データベースとクエリを一致させる検索ベースアプローチと、LVLM(Large Vision-Language Models)を用いた座標を直接予測する生成ベースアプローチの2つのパラダイムに従う。
検索はきめ細かなインスタンスマッチングに優れ、生成は堅牢なセマンティック推論を提供する。
この相補的な異質性は、単一のパラダイムが普遍的に優れているわけではないことを示唆している。
この可能性を活用するために,各クエリを最適パラダイムに適応的に割り当てる動的ルーティングフレームワークであるGeoRouterを提案する。
GeoRouterはLVLMバックボーンを活用して、視覚コンテンツを解析し、ルーティング決定を提供する。
GeoRouterを最適化するために、パラメータ間の距離ギャップを連続的な監視信号に変換し、相対的な性能差を明示的に反映する、距離対応優先目的を導入する。
さらに,独立したパラダイム予測を用いたルーティングポリシのトレーニングに適した,最初の大規模データセットであるGeoRoutingを構築した。
IM2GPS3kとYFCC4kの大規模な実験は、GeoRouterが最先端のベースラインを大幅に上回っていることを示している。
関連論文リスト
- SMGeo: Cross-View Object Geo-Localization with Grid-Level Mixture-of-Experts [4.521626189942935]
クロスビューオブジェクト ジオローカライゼーションは、ドローン画像に基づいて、大規模な衛星画像間で同じ物体を正確に特定することを目的としている。
SMGeoは、オブジェクトジオローカライゼーションのための、高速でエンドツーエンドなトランスフォーマベースモデルである。
論文 参考訳(メタデータ) (2025-11-18T03:21:20Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [23.297305067573316]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Gated Path Selection Network for Semantic Segmentation [72.44994579325822]
我々は,適応的な受容場を学習することを目的とした,GPSNetという新しいネットワークを開発した。
GPSNetにおいて、我々はまず2次元のマルチスケールネットワーク、SuperNetを設計する。
望ましいセマンティックコンテキストを動的に選択するために、ゲート予測モジュールがさらに導入される。
論文 参考訳(メタデータ) (2020-01-19T12:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。