論文の概要: Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
- arxiv url: http://arxiv.org/abs/2601.05432v1
- Date: Thu, 08 Jan 2026 23:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.794046
- Title: Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
- Title(参考訳): 地図を思い浮かべる:ジオローカライゼーションのための強化並列マップ強化エージェント
- Authors: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu,
- Abstract要約: モデルtextitThinking with Map with agent-in-the-map loop ability and formulate it as an agent-in-the-map loop。
エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。
さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的なジオローカライズ訓練および評価ベンチマークMAPBenchを提案する。
- 参考スコア(独自算出の注目度): 26.98749852286485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model \textit{Thinking with Map} ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to \textit{Gemini-3-Pro} with Google Search/Map grounded mode.
- Abstract(参考訳): 画像のジオローカライゼーションタスクは、視覚的な手がかりを用いて、画像が地球上のどこで撮影されたかを予測することを目的としている。
既存の大規模視覚言語モデル(LVLM)アプローチは、世界的知識、チェーンオブ思考推論、エージェント能力を活用するが、人間によって使われる共通戦略を見落としている。
本研究では,まず,textit{Thinking with Map} の能力をモデルとし,それをエージェント・イン・ザ・マップループとして定式化する。
エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。
RLはサンプリング効率を向上させるためにモデルのエージェント能力を強化し、並列TSはモデルが最終予測を行う前に複数の候補経路を探索することを可能にする。
さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的な地像定位訓練・評価ベンチマークMAPBenchを提案する。
実験結果から,Google Search/Mapグラウンドドモードの <textit{Gemini-3-Pro} と比較して,Acc@500m を 8.0 % から 22.1 % に改善した。
関連論文リスト
- GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文 参考訳(メタデータ) (2025-09-04T15:52:04Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。
マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。
本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-11T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。