論文の概要: REVERSE: Reinforcing Evidence Verification and Search for Agentic Image geo-localization
- arxiv url: http://arxiv.org/abs/2605.26861v1
- Date: Tue, 26 May 2026 11:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.967444
- Title: REVERSE: Reinforcing Evidence Verification and Search for Agentic Image geo-localization
- Title(参考訳): Reverse: エージェント画像のジオローカライゼーションのための証拠検証と検索の強化
- Authors: Yong Li, Furong Jia, Dacheng Yin, Kang Rong, Fengyun Rao, Jing Lyu, Fan Zhang,
- Abstract要約: 私たちはREVERSEという3つの中間的決定(見るべき場所、問い合わせすべき場所、信頼すべき証拠)を教えるフレームワークを紹介します。
オフラインの検索キャッシュは、強化学習中に検索観察を安定して再利用し、ノイズの多い検索結果に対する厳密な監視を可能にする。
4Bモデルでは、REVERSEは強力な検索強化ベースラインを上回り、Im2GPS3kとYFCC4kではかなり大きなモデルと競合する。
- 参考スコア(独自算出の注目度): 15.44857530497746
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image geo-localization aims to determine where a photograph was taken, a task that often requires more than recognizing visible landmarks. Human experts typically solve it through an iterative workflow: they inspect informative regions, form location hypotheses, seek external evidence, and revise their judgments as new clues appear. Existing methods only partially capture this process: direct prediction methods bypass evidence acquisition altogether, while retrieval-augmented methods introduce external evidence but usually provide limited supervision on the intermediate decisions of where to search, how to query, and how to filter noisy results. We present REVERSE, a framework that reinforces the interplay between evidence search and verification to enable multi-turn agentic reasoning. REVERSE teaches three intermediate decisions: where to look, what to query, and what evidence to trust. To support this, we construct tool-grounded trajectories with annotated region selections, search observations, and geo-informative evidence labels, and introduce process rewards for visual grounding, query utility, and evidence discrimination. An offline search cache makes retrieval observations stable and reusable during reinforcement learning, enabling dense supervision over noisy search results. With a 4B model, REVERSE outperforms strong retrieval-augmented baselines and rivals substantially larger models on Im2GPS3k and YFCC4k. Code is available at https://github.com/yonglleee/REVERSE.
- Abstract(参考訳): 画像のジオローカライゼーションは、写真が撮影された場所を決定することを目的としている。
情報的領域を検査し、位置仮説を形成し、外部の証拠を求め、新たな手がかりが現れるにつれて判断を再検討する。
直接予測法は、証拠の取得を完全に回避し、検索拡張法は外部の証拠を導入するが、通常、検索の場所、クエリ方法、ノイズのある結果のフィルタリング方法に関する中間的な決定を限定的に行う。
本稿では,証拠探索と検証の相互作用を強化し,マルチターンエージェント推論を可能にするREVERSEを提案する。
REVERSEは、見るべき場所、クエリすべき場所、信頼すべき証拠の3つの中間的な決定を教える。
これを支援するために,アノテートされた領域選択,探索観測,ジオインフォームティブなエビデンスラベルを用いたツールグラウンドトトラジェクトリを構築し,視覚的グラウンドニング,クエリユーティリティ,エビデンス識別のためのプロセス報酬を導入する。
オフラインの検索キャッシュは、強化学習中に検索観察を安定して再利用し、ノイズの多い検索結果に対する厳密な監視を可能にする。
4Bモデルでは、REVERSEは強力な検索強化ベースラインを上回り、Im2GPS3kとYFCC4kではかなり大きなモデルと競合する。
コードはhttps://github.com/yonglleee/REVERSE.comで入手できる。
関連論文リスト
- OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries [20.960193343595492]
OBLIQ-Benchは、本物のロングテールコーパスに対する5つの斜め探索問題のスイートである。
OBLIQ-Benchは、検索と検証の間に見落とされた非対称性を公開する。
我々はOBLIQ-Benchが、大規模コーパスにおける潜在パターンや暗黙の信号を効率的にキャプチャする検索アーキテクチャの研究を進めることを願っている。
論文 参考訳(メタデータ) (2026-05-07T13:22:49Z) - Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [127.64173950476702]
エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-05-03T19:13:11Z) - Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models [77.3748853516374]
視覚言語モデルのための学習不要なモデル固有のグラウンドリング手法を提案する。
モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズしてエントロピー勾配のレバレンスマップを得る。
次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入する。
論文 参考訳(メタデータ) (2026-04-09T16:51:42Z) - GeoBrowse: A Geolocation Benchmark for Agentic Tool Use with Expert-Annotated Reasoning Traces [24.123230954256826]
ディープリサーチエージェントは、多段階ツールの使用を通じて断片化された証拠を統合する。
BrowseCompはそのようなエージェントに対してテキストのみのテストベッドを提供するが、既存のマルチモーダルベンチマークでは弱い視覚的キューの構成とマルチホップ検証の両方を必要とすることは滅多にない。
視覚的推論と知識集約型マルチホップクエリを組み合わせたベンチマークであるGeoBrowseを紹介する。
論文 参考訳(メタデータ) (2026-04-05T08:29:52Z) - ICA: Information-Aware Credit Assignment for Visually Grounded Long-Horizon Information-Seeking Agents [26.361688266083988]
本稿では,Webページを視覚的スナップショットとして表現するビジュアルネイティブ検索フレームワークを提案する。
本稿では、検索した各スナップショットの最終的な結果への貢献を推定するポストホック法である情報認識クレジット割り当て(ICA)を紹介する。
我々のアプローチは、多様な情報検索ベンチマークでテキストベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-11T13:50:19Z) - LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge [6.433767853804077]
画像位置情報は、視覚的コンテンツに基づいて位置を推測することを目的としている。
既存のメソッドは通常、位置の知識と推論パターンを静的メモリに内部化する。
そこで我々はLocationAgentと呼ばれる階層的ローカライゼーションエージェントを提案する。
私たちの中核的な哲学は、地理的証拠の検証を外部ツールにオフロードしながら、モデル内の階層的推論ロジックを維持することです。
論文 参考訳(メタデータ) (2026-01-27T03:40:03Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。