論文の概要: Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.13628v1
- Date: Fri, 13 Mar 2026 22:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.307843
- Title: Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた画像ジオローカライズのための位置案内型適応推論
- Authors: Bo Yu, Fengze Yang, Yiming Liu, Chao Wang, Xuewen Luo, Taozhe Li, Ruimin Ke, Xiaofan Zhou, Chenxi Liu,
- Abstract要約: 地理的局所化における深部推論に対する画像の適合性を定量化する最適化ロケータビリティスコアを提案する。
本稿では,適応的推論深度,視覚的接地,階層的地理的精度を調節する報酬関数をカスタマイズした2段階グループ相対政策最適化カリキュラムを提案する。
我々のフレームワークであるGeo-ADAPTは、適応的推論ポリシーを学び、複数のジオローカライゼーションベンチマークで最先端のパフォーマンスを達成し、適応的かつ効率的に推論することで幻覚を著しく低減します。
- 参考スコア(独自算出の注目度): 13.088436168107352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Vision-Language Models (VLMs) has introduced new paradigms for global image geo-localization through retrieval-augmented generation (RAG) and reasoning-driven inference. However, RAG methods are constrained by retrieval database quality, while reasoning-driven approaches fail to internalize image locatability, relying on inefficient, fixed-depth reasoning paths that increase hallucinations and degrade accuracy. To overcome these limitations, we introduce an Optimized Locatability Score that quantifies an image's suitability for deep reasoning in geo-localization. Using this metric, we curate Geo-ADAPT-51K, a locatability-stratified reasoning dataset enriched with augmented reasoning trajectories for complex visual scenes. Building on this foundation, we propose a two-stage Group Relative Policy Optimization (GRPO) curriculum with customized reward functions that regulate adaptive reasoning depth, visual grounding, and hierarchical geographical accuracy. Our framework, Geo-ADAPT, learns an adaptive reasoning policy, achieves state-of-the-art performance across multiple geo-localization benchmarks, and substantially reduces hallucinations by reasoning both adaptively and efficiently.
- Abstract(参考訳): VLM(Vision-Language Models)の出現は、検索強化生成(RAG)と推論駆動推論を通じて、グローバルな画像のジオローカライゼーションのための新しいパラダイムを導入している。
しかしながら、RAG法は検索データベースの品質に制約される一方、推論駆動アプローチは、幻覚を増し精度を低下させる非効率な固定深度推論経路に依存して、画像位置の内在化に失敗する。
これらの制限を克服するために,画像の地理的局所化における深い推論に対する適合性を定量化するOptimized Locatability Scoreを導入する。
この測定値を用いて,複雑な視覚シーンのための拡張的推論トラジェクトリを付加した位置分解型推論データセットGeo-ADAPT-51Kをキュレートする。
本稿では,適応的推論深度,視覚的接地,階層的地理的精度を調節する報酬関数をカスタマイズした2段階グループ相対政策最適化(GRPO)カリキュラムを提案する。
我々のフレームワークであるGeo-ADAPTは、適応的推論ポリシーを学び、複数のジオローカライゼーションベンチマークで最先端のパフォーマンスを達成し、適応的かつ効率的に推論することで幻覚を著しく低減します。
関連論文リスト
- Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning [72.13218601075958]
textbfWanderBenchは,具体的シナリオにおける行動可能な位置情報推論のための,最初のオープンアクセスグローバルジオロケーションベンチマークである。
我々は,下線Action of UnderlineThoughを用いた下線Geolocationフレームワークである textbfGeoAoT (Action of Thought) を提案する。
19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
論文 参考訳(メタデータ) (2026-03-11T06:24:10Z) - Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach [41.001581773172695]
提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。
本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
論文 参考訳(メタデータ) (2026-01-01T16:51:41Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。