論文の概要: Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning
- arxiv url: http://arxiv.org/abs/2603.10463v1
- Date: Wed, 11 Mar 2026 06:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.80817
- Title: Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning
- Title(参考訳): Wanderへの学習: 行動的推論によるLMMのグローバルな画像測位能力の向上
- Authors: Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min,
- Abstract要約: textbfWanderBenchは,具体的シナリオにおける行動可能な位置情報推論のための,最初のオープンアクセスグローバルジオロケーションベンチマークである。
我々は,下線Action of UnderlineThoughを用いた下線Geolocationフレームワークである textbfGeoAoT (Action of Thought) を提案する。
19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
- 参考スコア(独自算出の注目度): 72.13218601075958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geolocation, the task of identifying the geographic location of an image, requires abundant world knowledge and complex reasoning abilities. Though advanced large multimodal models (LMMs) have shown superior aforementioned capabilities, their performance on the geolocation task remains unexplored. To this end, we introduce \textbf{WanderBench}, the first open access global geolocation benchmark designed for actionable geolocation reasoning in embodied scenarios. WanderBench contains over 32K panoramas across six continents, organized as navigable graphs that enable physical actions such as rotation and movement, transforming geolocation from static recognition into interactive exploration. Building on this foundation, we propose \textbf{GeoAoT} (Action of Thought), a \underline{Geo}location framework with \underline{A}ction of \underline{T}hough, which couples reasoning with embodied actions. Instead of generating textual reasoning chains, GeoAoT produces actionable plans such as, approaching landmarks or adjusting viewpoints, to actively reduce uncertainty. We further establish an evaluation protocol that jointly measures geolocation accuracy and difficulty-aware geolocation questioning ability. Experiments on 19 large multimodal models show that GeoAoT achieves superior fine-grained localization and stronger generalization in dynamic environments. WanderBench and GeoAoT define a new paradigm for actionable, reasoning driven geolocation in embodied visual understanding.
- Abstract(参考訳): 画像の地理的位置を特定するタスクであるジオロケーションは、豊富な世界の知識と複雑な推論能力を必要とする。
先進的な大規模マルチモーダルモデル (LMM) は, 上述の能力に優れるが, 位置決め作業における性能は未解明のままである。
この目的のために,実装シナリオにおける行動可能な位置情報推論のために設計された,最初のオープンアクセスグローバルジオロケーションベンチマークである \textbf{WanderBench} を紹介する。
WanderBenchには6大陸にまたがる32K以上のパノラマが含まれており、回転や移動といった物理的な動作を可能にするナビゲート可能なグラフとして組織され、位置を静的な認識からインタラクティブな探索へと変換する。
この基礎の上に構築された『textbf{GeoAoT} (Action of Thought) 』は,『Shaunderline{Geo}location framework 』と『Shaunderline{A}ction of \underline{T}hough 』が組み合わさったものである。
テキスト推論チェーンを生成する代わりに、GeoAoTは、ランドマークに近づいたり、視点を調整するような実行可能なプランを作成し、不確実性を積極的に減少させる。
さらに、位置情報の精度と難易度を共同で測定する評価プロトコルを確立する。
19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
WanderBenchとGeoAoTは、具体的視覚的理解において、行動可能な推論駆動の位置情報のための新しいパラダイムを定義している。
関連論文リスト
- GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework [9.31168320050859]
地理的ローカライゼーションは、全世界で撮影された画像の正確な地理的位置を決定することを含む。
現在の概念に基づく解釈可能性法は、ジオアライメント画像位置埋め込み目標と効果的に一致しない。
我々の知る限り、これは地理的局在化に解釈可能性を導入する最初の試みである。
論文 参考訳(メタデータ) (2025-09-02T03:07:26Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GaGA: Towards Interactive Global Geolocation Assistant [20.342366228855735]
GaGAは大きな視覚言語モデル(LVLM)上に構築された対話型グローバルジオロケーションアシスタントである
画像中の地理的手がかりを発見し、LVLMに埋め込まれた広い世界知識と組み合わせて位置情報を決定する。
GaGAはGWS15kデータセットの最先端のパフォーマンスを達成し、国レベルでは4.57%、都市レベルでは2.92%の精度を向上している。
論文 参考訳(メタデータ) (2024-12-12T03:39:44Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。