論文の概要: RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism
- arxiv url: http://arxiv.org/abs/2507.02962v2
- Date: Tue, 08 Jul 2025 06:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.784027
- Title: RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism
- Title(参考訳): RAG-R1 : マルチクエリ並列処理によるLLMの探索と推論能力の活性化
- Authors: Zhiwen Tan, Jiaming Huang, Qintong Wu, Hongxuan Zhang, Chenyi Zhuang, Jinjie Gu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
静的な内部知識のために、幻覚や時代遅れの応答を発生させる傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を探求している。
LLMが内部知識と外部知識を適応的に活用できるように設計された新しいトレーニングフレームワークであるRAG-R1を提案する。
- 参考スコア(独自算出の注目度): 10.288667305064065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, while they remain prone to generating hallucinated or outdated responses due to their static internal knowledge. Recent advancements in Retrieval-Augmented Generation (RAG) methods have explored enhancing models' search and reasoning capabilities through reinforcement learning (RL). Although these methods demonstrate promising results, they face challenges in training stability and encounter issues such as substantial inference time and restricted capabilities due to the single-query mode. In this paper, we propose RAG-R1, a novel training framework designed to enable LLMs to adaptively leverage internal and external knowledge during the reasoning process. We further expand the generation and retrieval processes within the framework from single-query mode to multi-query parallelism, aimed at reducing inference time and enhancing the model's capabilities. Extensive experiments on seven question-answering benchmarks demonstrate that our method outperforms the strongest baseline by up to 13.2% and decreases inference time by 11.1%.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示してきたが、静的な内部知識のために幻覚的あるいは時代遅れな応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、強化学習(RL)によるモデルの探索と推論能力の向上を探求している。
これらの手法は有望な結果を示すが、トレーニングの安定性や、大きな推論時間や単一クエリモードによる制限機能といった問題に直面する。
本稿では,LLMが推論プロセス中に内部知識と外部知識を適応的に活用できるように設計された新しいトレーニングフレームワークであるRAG-R1を提案する。
我々は、単一クエリモードからマルチクエリ並列化までフレームワーク内の生成および検索プロセスをさらに拡張し、推論時間を短縮し、モデルの能力を向上させることを目的としている。
7つの質問応答ベンチマークの大規模な実験により、我々の手法は13.2%まで最強のベースラインを上回り、推論時間を11.1%削減することを示した。
関連論文リスト
- Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。