論文の概要: RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism
- arxiv url: http://arxiv.org/abs/2507.02962v4
- Date: Fri, 01 Aug 2025 09:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.464753
- Title: RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism
- Title(参考訳): RAG-R1 : マルチクエリ並列処理によるLLMの探索と推論能力の活性化
- Authors: Zhiwen Tan, Jiaming Huang, Qintong Wu, Hongxuan Zhang, Chenyi Zhuang, Jinjie Gu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
- 参考スコア(独自算出の注目度): 10.288667305064065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, while LLMs remain prone to generating hallucinated or outdated responses due to their static internal knowledge. Recent advancements in Retrieval-Augmented Generation (RAG) methods have aimed to enhance models' search and reasoning capabilities through reinforcement learning (RL). Although these methods demonstrate promising results, they face challenges in training stability and encounter issues such as substantial inference time and restricted capabilities due to reliance on single-query mode. In this paper, we propose RAG-R1, a novel training framework designed to enable LLMs to adaptively leverage internal and external knowledge during the reasoning process. We further expand the generation and retrieval processes within the framework from single-query mode to multi-query parallelism, with the aim of reducing inference time and enhancing the model's capabilities. Extensive experiments on seven question-answering benchmarks demonstrate that our method outperforms the strongest baseline by up to 13.2% and decreases inference time by 11.1%.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示してきたが、LSMは静的な内部知識のために幻覚的あるいは時代遅れな応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、強化学習(RL)によるモデルの探索と推論能力の向上を目的としている。
これらの手法は有望な結果を示すが、トレーニングの安定性や、大きな推論時間や単一クエリモードへの依存による制限機能といった問題に直面する。
本稿では,LLMが推論プロセス中に内部知識と外部知識を適応的に活用できるように設計された新しいトレーニングフレームワークであるRAG-R1を提案する。
我々は、単一クエリモードからマルチクエリ並列化へフレームワーク内の生成および検索プロセスをさらに拡張し、推論時間を短縮し、モデルの能力を高めることを目的としている。
7つの質問応答ベンチマークの大規模な実験により、我々の手法は13.2%まで最強のベースラインを上回り、推論時間を11.1%削減することを示した。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning [27.336254612018404]
専門家によるデモンストレーションからの強化学習は、長い間、困難な研究課題のままである。
行動クローニングとRLトレーニングを併用した既存の最先端手法は、一般化の貧弱さ、サンプル効率の低さ、モデルの解釈可能性の低さに悩まされることが多い。
本稿では,これらの制約を克服するために,大規模言語モデル (LLM) と統合された新たな戦略に基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-06T05:53:09Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。