Fugu-MT 論文翻訳(概要): VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

論文の概要: VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

arxiv url: http://arxiv.org/abs/2604.09508v1
Date: Fri, 10 Apr 2026 17:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.978107
Title: VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning
Title（参考訳）: VISOR:反復探索とオーバーホライズン推論によるエージェント型ビジュアル検索拡張生成
Authors: Yucheng Shen, Jiulong Wu, Jizhou Huang, Dawei Yin, Lingyong Yan, Min Cao,
Abstract要約: Visual Retrieval-Augmented Generation (VRAG)は、視覚的にリッチなドキュメントの検索と推論を可能にする。既存のエージェントVRAGは、Long Horizonsのビジュアルエビデンス・スパシティと検索ドリフトの2つの重要なボトルネックに直面している。統合された単一エージェントフレームワークであるVISOR(Visual Retrieval-Augmented Generation via Iterative Search and Over-Horizon Reasoning)を提案する。
参考スコア（独自算出の注目度）: 44.82593834510368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Retrieval-Augmented Generation (VRAG) empowers Vision-Language Models to retrieve and reason over visually rich documents. To tackle complex queries requiring multi-step reasoning, agentic VRAG systems interleave reasoning with iterative retrieval.. However, existing agentic VRAG faces two critical bottlenecks. (1) Visual Evidence Sparsity: key evidence is scattered across pages yet processed in isolation, hindering cross-page reasoning; moreover, fine-grained intra-image evidence often requires precise visual actions, whose misuse degrades retrieval quality; (2) Search Drift in Long Horizons: the accumulation of visual tokens across retrieved pages dilutes context and causes cognitive overload, leading agents to deviate from their search objective. To address these challenges, we propose VISOR (Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning), a unified single-agent framework. VISOR features a structured Evidence Space for progressive cross-page reasoning, coupled with a Visual Action Evaluation and Correction mechanism to manage visual actions. Additionally, we introduce a Dynamic Trajectory with Sliding Window and Intent Injection to mitigate search drift. They anchor the evidence space while discarding earlier raw interactions, preventing context from being overwhelmed by visual tokens. We train VISOR using a Group Relative Policy Optimization-based Reinforcement Learning (GRPO-based RL) pipeline with state masking and credit assignment tailored for dynamic context reconstruction. Extensive experiments on ViDoSeek, SlideVQA, and MMLongBench demonstrate that VISOR achieves state-of-the-art performance with superior efficiency for long-horizon visual reasoning tasks.
Abstract（参考訳）: Visual Retrieval-Augmented Generation (VRAG)は、視覚的にリッチなドキュメントの検索と推論を可能にする。多段階推論を必要とする複雑なクエリに対処するため、エージェントVRAGシステムは反復検索と推論をインターリーブする。と。しかし、既存のエージェントVRAGは2つの重大なボトルネックに直面している。 1)視覚的エビデンス・スパシリティ(Visual Evidence Sparsity):キーエビデンスを別々に処理したページに分散し、ページ間の推論を阻害し、さらに、きめ細かな画像内証拠にはしばしば正確な視覚的行動が必要であり、その誤用は検索の質を低下させる。これらの課題に対処するため、単エージェント統合フレームワークであるVISOR(Visual Retrieval-Augmented Generation via Iterative Search and Over-Horizon Reasoning)を提案する。 VISORは、プログレッシブなクロスページ推論のための構造化されたエビデンススペースと、ビジュアルアクションを管理するビジュアルアクション評価と補正メカニズムを備えている。さらに,スライディングウィンドウとインテントインジェクションを併用した動的トラジェクタを導入し,探索ドリフトを緩和する。彼らは、初期の生の相互作用を捨てながらエビデンス空間を固定し、視覚的トークンによってコンテキストが圧倒されるのを防ぐ。我々は、動的コンテキスト再構築に適した状態マスキングとクレジット割り当てを備えたグループ相対政策最適化に基づく強化学習(GRPO-based RL)パイプラインを用いて、VISORを訓練する。 ViDoSeek、SlideVQA、MMLongBenchの大規模な実験は、VISORが最先端のパフォーマンスを達成し、長時間の視覚的推論タスクに優れた効率で実現していることを示した。

関連論文リスト

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation [35.07704681580893]
本稿では,光学文字認識(OCR)をクエリ駆動オンデマンド抽出システムに変換する動的解析パラダイムであるAgenticOCRを紹介する。 AgenticOCRは、文書レイアウトを「画像で考える」方法で自律的に分析することにより、関心のある領域を特定し、選択的に認識する。 AgenticOCRは、ビジュアルドキュメントRAGスタックの"3番目のビルディングブロック"として機能する可能性がある。
論文参考訳（メタデータ） (2026-02-27T16:09:38Z)
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。 VARは、推論プロセスを2つの重要な段階に分解する。我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文参考訳（メタデータ） (2025-10-21T13:18:44Z)
VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。 EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文参考訳（メタデータ） (2025-10-10T13:34:23Z)
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文参考訳（メタデータ） (2025-09-16T17:57:21Z)
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文参考訳（メタデータ） (2025-02-25T09:26:12Z)
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes [0.0]
Vision-Aware Retrieval-Augmented Prompting (VRAP)は、大規模ビジョンランゲージモデルを強化するジェネレーティブアプローチである。 VRAPは、微細な推論とマルチモーダル理解において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-16T02:52:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。