論文の概要: VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.22019v2
- Date: Tue, 03 Jun 2025 05:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.656495
- Title: VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning
- Title(参考訳): VRAG-RL:強化学習による反復推論による視覚情報理解のための視覚知覚に基づくRAG
- Authors: Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao,
- Abstract要約: 視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
- 参考スコア(独自算出の注目度): 45.39372905700317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively retrieving, reasoning and understanding visually rich information remains a challenge for RAG methods. Traditional text-based methods cannot handle visual-related information. On the other hand, current vision-based RAG approaches are often limited by fixed pipelines and frequently struggle to reason effectively due to the insufficient activation of the fundamental capabilities of models. As RL has been proven to be beneficial for model reasoning, we introduce VRAG-RL, a novel RL framework tailored for complex reasoning across visually rich information. With this framework, VLMs interact with search engines, autonomously sampling single-turn or multi-turn reasoning trajectories with the help of visual perception tokens and undergoing continual optimization based on these samples. Our approach highlights key limitations of RL in RAG domains: (i) Prior Multi-modal RAG approaches tend to merely incorporate images into the context, leading to insufficient reasoning token allocation and neglecting visual-specific perception; and (ii) When models interact with search engines, their queries often fail to retrieve relevant information due to the inability to articulate requirements, thereby leading to suboptimal performance. To address these challenges, we define an action space tailored for visually rich inputs, with actions including cropping and scaling, allowing the model to gather information from a coarse-to-fine perspective. Furthermore, to bridge the gap between users' original inquiries and the retriever, we employ a simple yet effective reward that integrates query rewriting and retrieval performance with a model-based reward. Our VRAG-RL optimizes VLMs for RAG tasks using specially designed RL strategies, aligning the model with real-world applications. The code is available at https://github.com/Alibaba-NLP/VRAG.
- Abstract(参考訳): 視覚的に豊かな情報を効果的に検索し、推論し、理解することは、RAG手法の課題である。
従来のテキストベースの手法では、視覚的な情報を扱えない。
一方、現在のビジョンベースのRAGアプローチは、固定パイプラインによって制限されることが多く、モデルの基本的な能力の活性化が不十分なため、効果的に推論に苦慮することが多い。
RLはモデル推論に有用であることが証明されているため、視覚的にリッチな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを導入する。
このフレームワークにより、VLMは検索エンジンと対話し、視覚認識トークンを用いて単ターンまたは多ターン推論軌道を自律的にサンプリングし、これらのサンプルに基づいて連続的な最適化を行う。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
一 先行マルチモーダルRAGアプローチは、単にイメージを文脈に組み込むだけで、トークン割り当ての理由付けが不十分で、視覚特有の知覚を無視する傾向にある。
2) モデルが検索エンジンと対話する場合,要求を明瞭化できないため,クエリが関連情報を検索できない場合が多いため,性能が低下する。
これらの課題に対処するために、我々は、トリミングやスケーリングを含むアクションを用いて、視覚的にリッチな入力に適したアクション空間を定義し、粗い視点から情報を集めることができる。
さらに,ユーザからの問い合わせと検索者のギャップを埋めるために,クエリリライトと検索性能をモデルベース報酬と統合した,シンプルかつ効果的な報酬を用いる。
我々のVRAG-RLは、特別に設計されたRL戦略を用いて、RAGタスクのためのVLMを最適化し、実世界のアプリケーションとモデルを整合させる。
コードはhttps://github.com/Alibaba-NLP/VRAGで公開されている。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。