論文の概要: GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
- arxiv url: http://arxiv.org/abs/2511.15705v1
- Date: Wed, 19 Nov 2025 18:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.953054
- Title: GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
- Title(参考訳): GeoVista: ジオローカライゼーションのためのWeb拡張エージェントビジュアル推論
- Authors: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao,
- Abstract要約: エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
- 参考スコア(独自算出の注目度): 53.080882980294795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
- Abstract(参考訳): エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てており、より汎用的なエージェントモデルへのギャップを残している。
そこで本研究では,視覚的グラウンディングだけでなく,推論中の仮説の検証や修正を行うためのWeb検索も必要とするジオローカライズタスクを再検討する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論のローカライゼーション課題を満たすことができないため、さまざまな都市の衛星画像のサブセットとともに、世界中の写真やパノラマを含むベンチマークであるGeoBenchをキュレートし、エージェントモデルのジオローカライゼーション能力を厳格に評価する。
また,関心領域を拡大するイメージズームインツールや関連するWeb情報を検索するWeb検索ツールなど,推論ループ内でツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案する。
我々は、推論パターンとツール使用前を学習するための冷間開始制御微調整(SFT)ステージと、推論能力を高めるための強化学習(RL)ステージを含む、完全なトレーニングパイプラインを開発する。
我々は階層的な報酬を採用し、多段階の地理情報を活用し、総合的な地理的ローカライゼーション性能を向上させる。
実験の結果,GeoVistaはジオローカライゼーションタスクにおける他のオープンソースエージェントモデルを大きく上回り,ほとんどのメトリクスにおいてGemini-2.5-flashやGPT-5といったクローズドソースモデルに匹敵する性能を実現していることがわかった。
関連論文リスト
- SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文 参考訳(メタデータ) (2026-02-10T06:57:12Z) - Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization [26.98749852286485]
モデルtextitThinking with Map with agent-in-the-map loop ability and formulate it as an agent-in-the-map loop。
エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。
さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的なジオローカライズ訓練および評価ベンチマークMAPBenchを提案する。
論文 参考訳(メタデータ) (2026-01-08T23:47:30Z) - GraphGeo: Multi-Agent Debate Framework for Visual Geo-localization with Heterogeneous Graph Neural Networks [15.659980269049798]
GPSメタデータを使わずに画像の位置を決定するには、地理的知識と高度な推論が必要である。
近年のLVLM(Large Vision-Language Models)は、画像の内容から直接位置推論を可能にするが、個々のモデルは多様な地理的領域や複雑なシーンと競合する。
ヘテロジニアスグラフニューラルネットワークを用いた視覚的ジオローカライゼーションのためのマルチエージェントディベートフレームワークである textbfGraphGeo を提案する。
論文 参考訳(メタデータ) (2025-11-02T11:58:55Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。