論文の概要: SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2602.09463v1
- Date: Tue, 10 Feb 2026 06:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.415416
- Title: SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
- Title(参考訳): SpotAgent: エージェント推論による大規模視覚言語モデルにおける視覚的ジオローカライゼーション
- Authors: Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu, Daxin Jiang, Yu Liu,
- Abstract要約: SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
- 参考スコア(独自算出の注目度): 31.665287327579026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated strong reasoning capabilities in geo-localization, yet they often struggle in real-world scenarios where visual cues are sparse, long-tailed, and highly ambiguous. Previous approaches, bound by internal knowledge, often fail to provide verifiable results, yielding confident but ungrounded predictions when faced with confounded evidence. To address these challenges, we propose SpotAgent, a framework that formalizes geo-localization into an agentic reasoning process that leverages expert-level reasoning to synergize visual interpretation with tool-assisted verification. SpotAgent actively explores and verifies visual cues by leveraging external tools (e.g., web search, maps) through a ReAct diagram. We introduce a 3-stage post-training pipeline starting with a Supervised Fine-Tuning (SFT) stage for basic alignment, followed by an Agentic Cold Start phase utilizing high-quality trajectories synthesized via a Multi-Agent framework, aiming to instill tool-calling expertise. Subsequently, the model's reasoning capabilities are refined through Reinforcement Learning. We propose a Spatially-Aware Dynamic Filtering strategy to enhance the efficiency of the RL stage by prioritizing learnable samples based on spatial difficulty. Extensive experiments on standard benchmarks demonstrate that SpotAgent achieves state-of-the-art performance, effectively mitigating hallucinations while delivering precise and verifiable geo-localization.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、地理的ローカライゼーションにおいて強力な推論能力を示しているが、視覚的手がかりが狭く、長い尾を持ち、非常にあいまいな現実のシナリオでは、しばしば苦労している。
内部知識に縛られる以前のアプローチは、しばしば検証可能な結果の提供に失敗し、確固とした証拠に直面した時に、自信はあるが根拠のない予測をもたらす。
これらの課題に対処するため,我々はSpotAgentを提案する。SpotAgentは,専門家レベルの推論を利用して,視覚的解釈とツールによる検証の相乗化を行うエージェント推論プロセスに,地理的ローカライゼーションを形式化するフレームワークである。
SpotAgentは、ReActダイアグラムを通じて外部ツール(Web検索、マップなど)を活用することで、視覚的な手がかりを積極的に探索し検証する。
基本アライメントのためのSupervised Fine-Tuning (SFT) ステージから始まる3段階のポストトレーニングパイプラインを導入し,Multi-Agentフレームワークを介して合成された高品質なトラジェクトリを利用したエージェントコールスタートフェーズを導入し,ツールコールの専門知識を取り入れた。
その後、モデルの推論能力は強化学習によって洗練される。
空間的難易度に基づいて学習可能なサンプルを優先順位付けすることで,RLステージの効率を向上させるための空間認識型動的フィルタリング手法を提案する。
標準ベンチマークに関する大規模な実験は、SpotAgentが最先端のパフォーマンスを達成し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供することを示した。
関連論文リスト
- Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。