論文の概要: SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2602.09463v2
- Date: Wed, 11 Feb 2026 03:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.134995
- Title: SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
- Title(参考訳): SpotAgent: エージェント推論による大規模視覚言語モデルにおける視覚的ジオローカライゼーション
- Authors: Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu, Daxin Jiang, Yu Liu,
- Abstract要約: SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
- 参考スコア(独自算出の注目度): 31.665287327579026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated strong reasoning capabilities in geo-localization, yet they often struggle in real-world scenarios where visual cues are sparse, long-tailed, and highly ambiguous. Previous approaches, bound by internal knowledge, often fail to provide verifiable results, yielding confident but ungrounded predictions when faced with confounded evidence. To address these challenges, we propose SpotAgent, a framework that formalizes geo-localization into an agentic reasoning process that leverages expert-level reasoning to synergize visual interpretation with tool-assisted verification. SpotAgent actively explores and verifies visual cues by leveraging external tools (e.g., web search, maps) through a ReAct diagram. We introduce a 3-stage post-training pipeline starting with a Supervised Fine-Tuning (SFT) stage for basic alignment, followed by an Agentic Cold Start phase utilizing high-quality trajectories synthesized via a Multi-Agent framework, aiming to instill tool-calling expertise. Subsequently, the model's reasoning capabilities are refined through Reinforcement Learning. We propose a Spatially-Aware Dynamic Filtering strategy to enhance the efficiency of the RL stage by prioritizing learnable samples based on spatial difficulty. Extensive experiments on standard benchmarks demonstrate that SpotAgent achieves state-of-the-art performance, effectively mitigating hallucinations while delivering precise and verifiable geo-localization.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、地理的ローカライゼーションにおいて強力な推論能力を示しているが、視覚的手がかりが狭く、長い尾を持ち、非常にあいまいな現実のシナリオでは、しばしば苦労している。
内部知識に縛られる以前のアプローチは、しばしば検証可能な結果の提供に失敗し、確固とした証拠に直面した時に、自信はあるが根拠のない予測をもたらす。
これらの課題に対処するため,我々はSpotAgentを提案する。SpotAgentは,専門家レベルの推論を利用して,視覚的解釈とツールによる検証の相乗化を行うエージェント推論プロセスに,地理的ローカライゼーションを形式化するフレームワークである。
SpotAgentは、ReActダイアグラムを通じて外部ツール(Web検索、マップなど)を活用することで、視覚的な手がかりを積極的に探索し検証する。
基本アライメントのためのSupervised Fine-Tuning (SFT) ステージから始まる3段階のポストトレーニングパイプラインを導入し,Multi-Agentフレームワークを介して合成された高品質なトラジェクトリを利用したエージェントコールスタートフェーズを導入し,ツールコールの専門知識を取り入れた。
その後、モデルの推論能力は強化学習によって洗練される。
空間的難易度に基づいて学習可能なサンプルを優先順位付けすることで,RLステージの効率を向上させるための空間認識型動的フィルタリング手法を提案する。
標準ベンチマークに関する大規模な実験は、SpotAgentが最先端のパフォーマンスを達成し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供することを示した。
関連論文リスト
- Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge [6.433767853804077]
画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。
既存のメソッドは通常、位置の知識と推論パターンを静的メモリに内部化する。
そこで我々はLocationAgentと呼ばれる階層的ローカライゼーションエージェントを提案する。
私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。
論文 参考訳(メタデータ) (2026-01-27T03:40:03Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。