論文の概要: Curriculum Guided Reinforcement Learning for Efficient Multi Hop Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.17391v1
- Date: Fri, 23 May 2025 02:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.764336
- Title: Curriculum Guided Reinforcement Learning for Efficient Multi Hop Retrieval Augmented Generation
- Title(参考訳): 効率的なマルチホップ検索強化生成のためのカリキュラム指導強化学習
- Authors: Yuelyu Ji, Rui Meng, Zhuochun Li, Daqing He,
- Abstract要約: EVO-RAGはカリキュラムによる強化学習フレームワークである。
クエリ書き換えエージェントを、幅広い初期段階の探索から簡潔な後期改良へと進化させる。
厳格なRAGベースラインを4.6ポイントまで上回り、平均検索深度を15%まで下げる。
- 参考スコア(独自算出の注目度): 11.756344944226495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) grounds large language models (LLMs) in up-to-date external evidence, yet existing multi-hop RAG pipelines still issue redundant subqueries, explore too shallowly, or wander through overly long search chains. We introduce EVO-RAG, a curriculum-guided reinforcement learning framework that evolves a query-rewriting agent from broad early-stage exploration to concise late-stage refinement. EVO-RAG couples a seven-factor, step-level reward vector (covering relevance, redundancy, efficiency, and answer correctness) with a time-varying scheduler that reweights these signals as the episode unfolds. The agent is trained with Direct Preference Optimization over a multi-head reward model, enabling it to learn when to search, backtrack, answer, or refuse. Across four multi-hop QA benchmarks (HotpotQA, 2WikiMultiHopQA, MuSiQue, and Bamboogle), EVO-RAG boosts Exact Match by up to 4.6 points over strong RAG baselines while trimming average retrieval depth by 15 %. Ablation studies confirm the complementary roles of curriculum staging and dynamic reward scheduling. EVO-RAG thus offers a general recipe for building reliable, cost-effective multi-hop RAG systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を最新の外部証拠として位置づけているが、既存のマルチホップRAGパイプラインは、冗長なサブクエリを発行したり、浅すぎて探索したり、長い検索チェーンをさまよったりしている。
EVO-RAGはカリキュラム誘導型強化学習フレームワークで、広範囲の早期探索から複雑な後期改良までクエリ書き換えエージェントを進化させる。
EVO-RAGは、7要素のステップレベルの報酬ベクトル(関連性、冗長性、効率性、回答正解性)と、エピソードが展開するにつれてこれらの信号を重み付けする時間変化スケジューラを結合する。
エージェントは、マルチヘッドの報酬モデルに対して直接優先度最適化(Direct Preference Optimization)でトレーニングされ、検索、バックトラック、回答、拒否のタイミングを学習することができる。
4つのマルチホップQAベンチマーク(HotpotQA, 2WikiMultiHopQA, MuSiQue, Bamboogle)において、EVO-RAGはExact Matchを強力なRAGベースラインで最大4.6ポイント、平均検索深度を15%向上させる。
アブレーション研究は、カリキュラムのステージングと動的報酬スケジューリングの相補的な役割を検証している。
EVO-RAGは信頼性が高く費用対効果の高いマルチホップRAGシステムを構築するための一般的なレシピを提供する。
関連論文リスト
- Vendi-RAG: Adaptively Trading-Off Diversity And Quality Significantly Improves Retrieval Augmented Generation With LLMs [2.992602379681373]
Vendi-RAGは、検索の多様性と回答の品質を共同で最適化する反復的なプロセスに基づくフレームワークである。
Veddi-RAGは、フレキシブルな類似性に基づく多様性指標であるVendi Score(VS)を活用して、文書検索における意味的多様性を促進する。
Veddi-RAGは従来のシングルステップとマルチステップのRAGアプローチよりも大幅に精度が向上している。
論文 参考訳(メタデータ) (2025-02-16T18:46:10Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。