Fugu-MT 論文翻訳(概要): Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models

論文の概要: Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.13628v1
Date: Fri, 13 Mar 2026 22:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.307843
Title: Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いた画像ジオローカライズのための位置案内型適応推論
Authors: Bo Yu, Fengze Yang, Yiming Liu, Chao Wang, Xuewen Luo, Taozhe Li, Ruimin Ke, Xiaofan Zhou, Chenxi Liu,
Abstract要約: 地理的局所化における深部推論に対する画像の適合性を定量化する最適化ロケータビリティスコアを提案する。本稿では,適応的推論深度,視覚的接地,階層的地理的精度を調節する報酬関数をカスタマイズした2段階グループ相対政策最適化カリキュラムを提案する。我々のフレームワークであるGeo-ADAPTは、適応的推論ポリシーを学び、複数のジオローカライゼーションベンチマークで最先端のパフォーマンスを達成し、適応的かつ効率的に推論することで幻覚を著しく低減します。
参考スコア（独自算出の注目度）: 13.088436168107352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Vision-Language Models (VLMs) has introduced new paradigms for global image geo-localization through retrieval-augmented generation (RAG) and reasoning-driven inference. However, RAG methods are constrained by retrieval database quality, while reasoning-driven approaches fail to internalize image locatability, relying on inefficient, fixed-depth reasoning paths that increase hallucinations and degrade accuracy. To overcome these limitations, we introduce an Optimized Locatability Score that quantifies an image's suitability for deep reasoning in geo-localization. Using this metric, we curate Geo-ADAPT-51K, a locatability-stratified reasoning dataset enriched with augmented reasoning trajectories for complex visual scenes. Building on this foundation, we propose a two-stage Group Relative Policy Optimization (GRPO) curriculum with customized reward functions that regulate adaptive reasoning depth, visual grounding, and hierarchical geographical accuracy. Our framework, Geo-ADAPT, learns an adaptive reasoning policy, achieves state-of-the-art performance across multiple geo-localization benchmarks, and substantially reduces hallucinations by reasoning both adaptively and efficiently.
Abstract（参考訳）: VLM(Vision-Language Models)の出現は、検索強化生成(RAG)と推論駆動推論を通じて、グローバルな画像のジオローカライゼーションのための新しいパラダイムを導入している。しかしながら、RAG法は検索データベースの品質に制約される一方、推論駆動アプローチは、幻覚を増し精度を低下させる非効率な固定深度推論経路に依存して、画像位置の内在化に失敗する。これらの制限を克服するために,画像の地理的局所化における深い推論に対する適合性を定量化するOptimized Locatability Scoreを導入する。この測定値を用いて,複雑な視覚シーンのための拡張的推論トラジェクトリを付加した位置分解型推論データセットGeo-ADAPT-51Kをキュレートする。本稿では,適応的推論深度,視覚的接地,階層的地理的精度を調節する報酬関数をカスタマイズした2段階グループ相対政策最適化(GRPO)カリキュラムを提案する。我々のフレームワークであるGeo-ADAPTは、適応的推論ポリシーを学び、複数のジオローカライゼーションベンチマークで最先端のパフォーマンスを達成し、適応的かつ効率的に推論することで幻覚を著しく低減します。

論文の概要: Locatability-Guided Adaptive Reasoning for Image Geo-Localization with Vision-Language Models

関連論文リスト