論文の概要: LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge
- arxiv url: http://arxiv.org/abs/2601.19155v1
- Date: Tue, 27 Jan 2026 03:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.158319
- Title: LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge
- Title(参考訳): LocationAgent: 分離戦略による画像位置情報の階層的エージェントとパラメトリック知識からのエビデンス
- Authors: Qiujun Li, Zijin Xiao, Xulin Wang, Zhidan Ma, Cheng Yang, Haifeng Li,
- Abstract要約: 画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。
既存のメソッドは通常、位置の知識と推論パターンを静的メモリに内部化する。
そこで我々はLocationAgentと呼ばれる階層的ローカライゼーションエージェントを提案する。
私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。
- 参考スコア(独自算出の注目度): 6.433767853804077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image geolocation aims to infer capture locations based on visual content. Fundamentally, this constitutes a reasoning process composed of \textit{hypothesis-verification cycles}, requiring models to possess both geospatial reasoning capabilities and the ability to verify evidence against geographic facts. Existing methods typically internalize location knowledge and reasoning patterns into static memory via supervised training or trajectory-based reinforcement fine-tuning. Consequently, these methods are prone to factual hallucinations and generalization bottlenecks in open-world settings or scenarios requiring dynamic knowledge. To address these challenges, we propose a Hierarchical Localization Agent, called LocationAgent. Our core philosophy is to retain hierarchical reasoning logic within the model while offloading the verification of geographic evidence to external tools. To implement hierarchical reasoning, we design the RER architecture (Reasoner-Executor-Recorder), which employs role separation and context compression to prevent the drifting problem in multi-step reasoning. For evidence verification, we construct a suite of clue exploration tools that provide diverse evidence to support location reasoning. Furthermore, to address data leakage and the scarcity of Chinese data in existing datasets, we introduce CCL-Bench (China City Location Bench), an image geolocation benchmark encompassing various scene granularities and difficulty levels. Extensive experiments demonstrate that LocationAgent significantly outperforms existing methods by at least 30\% in zero-shot settings.
- Abstract(参考訳): 画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。
基本的に、これは textit{hypothesis-verification cycles} からなる推論プロセスを構成しており、モデルには地理空間的推論能力と地理的事実に対する証拠の検証能力の両方を必要とする。
既存の手法は通常、位置知識と推論パターンを教師付きトレーニングや軌道に基づく強化微調整によって静的メモリに内部化する。
その結果、これらの手法は、オープンワールドの設定や動的知識を必要とするシナリオにおいて、現実の幻覚や一般化のボトルネックを引き起こす傾向にある。
これらの課題に対処するため、我々はLocationAgentと呼ばれる階層的局所化エージェントを提案する。
私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。
階層的推論を実現するために,マルチステップ推論におけるドリフト問題を回避するために,役割分離とコンテキスト圧縮を用いたRERアーキテクチャ(Reasoner-Executor-Recorder)を設計する。
証拠検証のために,位置推論を支援するための多様な証拠を提供する手がかり探索ツール群を構築した。
さらに、既存のデータセットにおけるデータ漏洩と中国データの不足に対処するために、さまざまなシーンの粒度と難易度を含む画像位置情報ベンチマークであるCCL-Bench(China City Location Bench)を導入する。
大規模な実験では、LocationAgentはゼロショット設定で既存のメソッドを少なくとも30%上回っている。
関連論文リスト
- Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments [10.485672302572368]
地図環境は、空間構造を表現するための基本的な媒体であり、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振る舞うかを理解することは、信頼できる地図ベースの推論と応用を可能にするために重要である。
本研究では,FMエージェントがシンボルマップ環境においてどのように探索し,記憶し,理性を示すかを分析するための対話型評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T23:04:29Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。