論文の概要: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24864v1
- Date: Fri, 30 May 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.123262
- Title: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- Title(参考訳): ProRL:大規模言語モデルにおける強化学習の拡張
- Authors: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong,
- Abstract要約: 本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
- 参考スコア(独自算出の注目度): 89.37819814048288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
- Abstract(参考訳): 推論中心言語モデルの最近の進歩は、モデルと検証可能な報酬を整合させる有望な方法として強化学習(RL)を強調している。
しかし、RLがモデル推論能力を真に拡張したのか、あるいはベースモデルの分布にすでに潜んでいるハイリワード出力を単に増幅しただけなのか、RL計算の継続的なスケールアップが推論性能を確実に向上させるのかは、いまだ議論の余地がある。
本研究では,長期間のRL(ProRL)トレーニングが,大規模なサンプリング下であっても,ベースモデルに到達できない新たな推論戦略を明らかにすることができることを示すことによって,一般的な仮定に挑戦する。
本稿では,KL分散制御,参照ポリシリセット,多種多様なタスクを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析によると、RLで訓練されたモデルは、試行数に関係なく、ベースモデルが完全に失敗するシナリオを含む、幅広いパス@k評価において、ベースモデルよりも一貫して優れています。
さらに、推論境界の改善は、ベースモデルのタスク能力とトレーニング期間と強く相関していることを示し、RLが時間とともに解空間の新しい領域を探索し、蓄積できることを示唆する。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件に関する新たな知見を与え、推論のための長期RL研究の基盤を確立する。
さらなる研究を支援するためのモデルウェイトをリリースする:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。