論文の概要: Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14069v1
- Date: Tue, 20 May 2025 08:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.88162
- Title: Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning
- Title(参考訳): Process vs. Outcome Reward:エージェントRAG強化学習のどちらがよいか
- Authors: Wenlin Zhang, Xiangyang Li, Kuicai Dong, Yichao Wang, Pengyue Jia, Xiaopeng Li, Yingyi Zhang, Derong Xu, Zhaocheng Du, Huifeng Guo, Ruiming Tang, Xiangyu Zhao,
- Abstract要約: Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
- 参考スコア(独自算出の注目度): 45.10424242207931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances the text generation capabilities of large language models (LLMs) by integrating external knowledge and up-to-date information. However, traditional RAG systems are limited by static workflows and lack the adaptability required for multistep reasoning and complex task management. To address these limitations, agentic RAG systems (e.g., DeepResearch) have been proposed, enabling dynamic retrieval strategies, iterative context refinement, and adaptive workflows for handling complex search queries beyond the capabilities of conventional RAG. Recent advances, such as Search-R1, have demonstrated promising gains using outcome-based reinforcement learning, where the correctness of the final answer serves as the reward signal. Nevertheless, such outcome-supervised agentic RAG methods face challenges including low exploration efficiency, gradient conflict, and sparse reward signals. To overcome these challenges, we propose to utilize fine-grained, process-level rewards to improve training stability, reduce computational costs, and enhance efficiency. Specifically, we introduce a novel method ReasonRAG that automatically constructs RAG-ProGuide, a high-quality dataset providing process-level rewards for (i) query generation, (ii) evidence extraction, and (iii) answer generation, thereby enhancing model inherent capabilities via process-supervised reinforcement learning. With the process-level policy optimization, the proposed framework empowers LLMs to autonomously invoke search, generate queries, extract relevant evidence, and produce final answers. Compared to existing approaches such as Search-R1 and traditional RAG systems, ReasonRAG, leveraging RAG-ProGuide, achieves superior performance on five benchmark datasets using only 5k training instances, significantly fewer than the 90k training instances required by Search-R1.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識と最新の情報を統合することで、大規模言語モデル(LLM)のテキスト生成能力を向上する。
しかし、従来のRAGシステムは静的ワークフローによって制限されており、多段階推論や複雑なタスク管理に必要な適応性に欠ける。
これらの制約に対処するため、エージェントRAGシステム(例えばDeepResearch)が提案され、動的検索戦略、反復的コンテキスト改善、複雑な検索クエリを扱うための適応ワークフローが従来のRAGの能力を超えている。
検索-R1のような最近の進歩は、結果に基づく強化学習を用いて、最終的な回答の正しさが報奨信号として機能する有望なゲインを示した。
しかしながら、このような結果管理エージェントRAG法は、探索効率の低下、勾配競合、スパース報酬信号などの課題に直面している。
これらの課題を克服するために,訓練の安定性の向上,計算コストの削減,効率の向上のために,きめ細かなプロセスレベルの報酬を活用することを提案する。
具体的には、プロセスレベルの報酬を提供する高品質なデータセットであるRAG-ProGuideを自動構築する新しい手法であるReasonRAGを提案する。
(i)クエリ生成
(二)証拠抽出、及び
三 プロセス指導強化学習によるモデル固有の能力の向上。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
Search-R1や従来のRAGシステムのような既存のアプローチと比較して、RAG-ProGuideを活用するReasonRAGは、5kのトレーニングインスタンスのみを使用して5つのベンチマークデータセット上で優れたパフォーマンスを実現している。
関連論文リスト
- Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability [16.87554947089102]
本稿では,強化学習(RL)を用いて学習した透過的なRAG生成フレームワークであるARENAを提案する。
構造化された生成と適応的な報酬計算に基づいて、我々のRLベースのトレーニングにより、重要な証拠を特定し、構造化された推論を行い、解釈可能な決定トレースで回答を生成することができる。
論文 参考訳(メタデータ) (2025-05-19T15:40:29Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。
また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。