論文の概要: GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
- arxiv url: http://arxiv.org/abs/2511.15705v1
- Date: Wed, 19 Nov 2025 18:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.953054
- Title: GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
- Title(参考訳): GeoVista: ジオローカライゼーションのためのWeb拡張エージェントビジュアル推論
- Authors: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao,
- Abstract要約: エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
- 参考スコア(独自算出の注目度): 53.080882980294795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
- Abstract(参考訳): エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てており、より汎用的なエージェントモデルへのギャップを残している。
そこで本研究では,視覚的グラウンディングだけでなく,推論中の仮説の検証や修正を行うためのWeb検索も必要とするジオローカライズタスクを再検討する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論のローカライゼーション課題を満たすことができないため、さまざまな都市の衛星画像のサブセットとともに、世界中の写真やパノラマを含むベンチマークであるGeoBenchをキュレートし、エージェントモデルのジオローカライゼーション能力を厳格に評価する。
また,関心領域を拡大するイメージズームインツールや関連するWeb情報を検索するWeb検索ツールなど,推論ループ内でツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案する。
我々は、推論パターンとツール使用前を学習するための冷間開始制御微調整(SFT)ステージと、推論能力を高めるための強化学習(RL)ステージを含む、完全なトレーニングパイプラインを開発する。
我々は階層的な報酬を採用し、多段階の地理情報を活用し、総合的な地理的ローカライゼーション性能を向上させる。
実験の結果,GeoVistaはジオローカライゼーションタスクにおける他のオープンソースエージェントモデルを大きく上回り,ほとんどのメトリクスにおいてGemini-2.5-flashやGPT-5といったクローズドソースモデルに匹敵する性能を実現していることがわかった。
関連論文リスト
- GraphGeo: Multi-Agent Debate Framework for Visual Geo-localization with Heterogeneous Graph Neural Networks [15.659980269049798]
GPSメタデータを使わずに画像の位置を決定するには、地理的知識と高度な推論が必要である。
近年のLVLM(Large Vision-Language Models)は、画像の内容から直接位置推論を可能にするが、個々のモデルは多様な地理的領域や複雑なシーンと競合する。
ヘテロジニアスグラフニューラルネットワークを用いた視覚的ジオローカライゼーションのためのマルチエージェントディベートフレームワークである textbfGraphGeo を提案する。
論文 参考訳(メタデータ) (2025-11-02T11:58:55Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。