Fugu-MT 論文翻訳(概要): LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge

論文の概要: LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge

arxiv url: http://arxiv.org/abs/2601.19155v1
Date: Tue, 27 Jan 2026 03:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-28 15:26:51.158319
Title: LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge
Title（参考訳）: LocationAgent: 分離戦略による画像位置情報の階層的エージェントとパラメトリック知識からのエビデンス
Authors: Qiujun Li, Zijin Xiao, Xulin Wang, Zhidan Ma, Cheng Yang, Haifeng Li,
Abstract要約: 画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。既存のメソッドは通常、位置の知識と推論パターンを静的メモリに内部化する。そこで我々はLocationAgentと呼ばれる階層的ローカライゼーションエージェントを提案する。私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。
参考スコア（独自算出の注目度）: 6.433767853804077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image geolocation aims to infer capture locations based on visual content. Fundamentally, this constitutes a reasoning process composed of \textit{hypothesis-verification cycles}, requiring models to possess both geospatial reasoning capabilities and the ability to verify evidence against geographic facts. Existing methods typically internalize location knowledge and reasoning patterns into static memory via supervised training or trajectory-based reinforcement fine-tuning. Consequently, these methods are prone to factual hallucinations and generalization bottlenecks in open-world settings or scenarios requiring dynamic knowledge. To address these challenges, we propose a Hierarchical Localization Agent, called LocationAgent. Our core philosophy is to retain hierarchical reasoning logic within the model while offloading the verification of geographic evidence to external tools. To implement hierarchical reasoning, we design the RER architecture (Reasoner-Executor-Recorder), which employs role separation and context compression to prevent the drifting problem in multi-step reasoning. For evidence verification, we construct a suite of clue exploration tools that provide diverse evidence to support location reasoning. Furthermore, to address data leakage and the scarcity of Chinese data in existing datasets, we introduce CCL-Bench (China City Location Bench), an image geolocation benchmark encompassing various scene granularities and difficulty levels. Extensive experiments demonstrate that LocationAgent significantly outperforms existing methods by at least 30\% in zero-shot settings.
Abstract（参考訳）: 画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。基本的に、これは textit{hypothesis-verification cycles} からなる推論プロセスを構成しており、モデルには地理空間的推論能力と地理的事実に対する証拠の検証能力の両方を必要とする。既存の手法は通常、位置知識と推論パターンを教師付きトレーニングや軌道に基づく強化微調整によって静的メモリに内部化する。その結果、これらの手法は、オープンワールドの設定や動的知識を必要とするシナリオにおいて、現実の幻覚や一般化のボトルネックを引き起こす傾向にある。これらの課題に対処するため、我々はLocationAgentと呼ばれる階層的局所化エージェントを提案する。私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。階層的推論を実現するために,マルチステップ推論におけるドリフト問題を回避するために,役割分離とコンテキスト圧縮を用いたRERアーキテクチャ(Reasoner-Executor-Recorder)を設計する。証拠検証のために,位置推論を支援するための多様な証拠を提供する手がかり探索ツール群を構築した。さらに、既存のデータセットにおけるデータ漏洩と中国データの不足に対処するために、さまざまなシーンの粒度と難易度を含む画像位置情報ベンチマークであるCCL-Bench(China City Location Bench)を導入する。大規模な実験では、LocationAgentはゼロショット設定で既存のメソッドを少なくとも30%上回っている。

関連論文リスト

OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文参考訳（メタデータ） (2026-02-19T18:59:54Z)
GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文参考訳（メタデータ） (2026-02-13T04:48:05Z)
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文参考訳（メタデータ） (2026-02-10T06:57:12Z)
Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments [10.485672302572368]
地図環境は、空間構造を表現するための基本的な媒体であり、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振る舞うかを理解することは、信頼できる地図ベースの推論と応用を可能にするために重要である。本研究では,FMエージェントがシンボルマップ環境においてどのように探索し,記憶し,理性を示すかを分析するための対話型評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-30T23:04:29Z)
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文参考訳（メタデータ） (2025-11-19T18:59:22Z)
From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-03T06:04:33Z)
Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。 GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-06-17T16:07:58Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-01T19:24:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。