論文の概要: Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
- arxiv url: http://arxiv.org/abs/2601.05432v1
- Date: Thu, 08 Jan 2026 23:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.794046
- Title: Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
- Title(参考訳): 地図を思い浮かべる:ジオローカライゼーションのための強化並列マップ強化エージェント
- Authors: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu,
- Abstract要約: モデルtextitThinking with Map with agent-in-the-map loop ability and formulate it as an agent-in-the-map loop。
エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。
さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的なジオローカライズ訓練および評価ベンチマークMAPBenchを提案する。
- 参考スコア(独自算出の注目度): 26.98749852286485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model \textit{Thinking with Map} ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to \textit{Gemini-3-Pro} with Google Search/Map grounded mode.
- Abstract(参考訳): 画像のジオローカライゼーションタスクは、視覚的な手がかりを用いて、画像が地球上のどこで撮影されたかを予測することを目的としている。
既存の大規模視覚言語モデル(LVLM)アプローチは、世界的知識、チェーンオブ思考推論、エージェント能力を活用するが、人間によって使われる共通戦略を見落としている。
本研究では,まず,textit{Thinking with Map} の能力をモデルとし,それをエージェント・イン・ザ・マップループとして定式化する。
エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。
RLはサンプリング効率を向上させるためにモデルのエージェント能力を強化し、並列TSはモデルが最終予測を行う前に複数の候補経路を探索することを可能にする。
さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的な地像定位訓練・評価ベンチマークMAPBenchを提案する。
実験結果から,Google Search/Mapグラウンドドモードの <textit{Gemini-3-Pro} と比較して,Acc@500m を 8.0 % から 22.1 % に改善した。
関連論文リスト
- GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction [23.767061975974134]
本研究では,ヒトが広い地域から特定の住所まで場所を狭める方法に着想を得た階層的シーケンス予測手法を提案する。
本手法では, ネストした多解像度グローバルグリッドであるS2セルを用いて, 視覚入力と過去の予測に基づいて, より微細なセルを逐次予測する。
我々は,Im2GPS3kとYFCC4kのデータセットを2つの異なるベースラインに対して評価した。
論文 参考訳(メタデータ) (2025-11-02T21:30:06Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文 参考訳(メタデータ) (2025-09-04T15:52:04Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [20.043977909592115]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。
マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。
本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-11T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。