論文の概要: UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
- arxiv url: http://arxiv.org/abs/2604.14967v2
- Date: Fri, 17 Apr 2026 02:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.399095
- Title: UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
- Title(参考訳): UniDoc-RL:階層的アクションとDense Rewardsを備えた粗視的RAG
- Authors: Jun Wang, Shuo Tan, Zelong Sun, Tiancheng Gu, Yongle Zhao, Ziyong Feng, Kaicheng Yang, Zhiwu Lu,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、LVLM(Large Vision-Language Models)を拡張して、外部の視覚的知識を提供する。
統合強化学習フレームワークUniDoc-RLを提案し,LVLMエージェントが協調して検索,再評価,能動的視覚知覚,推論を行う。
3つのベンチマークの実験では、UniDoc-RLは最先端のベースラインを一貫して上回り、以前のRLベースの手法よりも最大17.7%向上している。
- 参考スコア(独自算出の注目度): 16.669801835057424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) extends Large Vision-Language Models (LVLMs) with external visual knowledge. However, existing visual RAG systems typically rely on generic retrieval signals that overlook the fine-grained visual semantics essential for complex reasoning. To address this limitation, we propose UniDoc-RL, a unified reinforcement learning framework in which an LVLM agent jointly performs retrieval, reranking, active visual perception, and reasoning. UniDoc-RL formulates visual information acquisition as a sequential decision-making problem with a hierarchical action space. Specifically, it progressively refines visual evidence from coarse-grained document retrieval to fine-grained image selection and active region cropping, allowing the model to suppress irrelevant content and attend to information-dense regions. For effective end-to-end training, we introduce a dense multi-reward scheme that provides task-aware supervision for each action. Based on Group Relative Policy Optimization (GRPO), UniDoc-RL aligns agent behavior with multiple objectives without relying on a separate value network. To support this training paradigm, we curate a comprehensive dataset of high-quality reasoning trajectories with fine-grained action annotations. Experiments on three benchmarks demonstrate that UniDoc-RL consistently surpasses state-of-the-art baselines, yielding up to 17.7% gains over prior RL-based methods.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、LVLM(Large Vision-Language Models)を拡張して、外部の視覚的知識を提供する。
しかし、既存のビジュアルRAGシステムは一般に複雑な推論に不可欠な細粒度の視覚的意味論を無視する一般的な検索信号に依存している。
この制限に対処するために、LVLMエージェントが共同で検索、再ランク付け、アクティブな視覚知覚、推論を行う統合強化学習フレームワークUniDoc-RLを提案する。
UniDoc-RLは、階層的なアクション空間を持つシーケンシャルな意思決定問題として、視覚情報取得を定式化する。
具体的には、粗い文書検索から、きめ細かな画像選択や活動領域の収穫に至るまでの視覚的証拠を段階的に洗練し、無関係な内容の抑制と情報密度の高い領域への参加を可能にする。
エンド・ツー・エンドの効果的なトレーニングには、各アクションに対するタスク・アウェア・インスペクションを提供する密集したマルチ・リワード・スキームを導入する。
グループ相対ポリシー最適化(GRPO)に基づいて、UniDoc-RLは、異なる値ネットワークに頼ることなく、エージェントの振る舞いを複数の目的と整合させる。
このトレーニングパラダイムをサポートするため、我々は、詳細なアクションアノテーションを用いて高品質な推論軌道の包括的データセットをキュレートする。
3つのベンチマークの実験では、UniDoc-RLは最先端のベースラインを一貫して上回り、以前のRLベースの手法よりも最大17.7%向上している。
関連論文リスト
- MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。
GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。
MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文 参考訳(メタデータ) (2026-04-15T07:39:08Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文 参考訳(メタデータ) (2025-05-28T06:30:51Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。