論文の概要: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24864v1
- Date: Fri, 30 May 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.123262
- Title: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- Title(参考訳): ProRL:大規模言語モデルにおける強化学習の拡張
- Authors: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong,
- Abstract要約: 本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
- 参考スコア(独自算出の注目度): 89.37819814048288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
- Abstract(参考訳): 推論中心言語モデルの最近の進歩は、モデルと検証可能な報酬を整合させる有望な方法として強化学習(RL)を強調している。
しかし、RLがモデル推論能力を真に拡張したのか、あるいはベースモデルの分布にすでに潜んでいるハイリワード出力を単に増幅しただけなのか、RL計算の継続的なスケールアップが推論性能を確実に向上させるのかは、いまだ議論の余地がある。
本研究では,長期間のRL(ProRL)トレーニングが,大規模なサンプリング下であっても,ベースモデルに到達できない新たな推論戦略を明らかにすることができることを示すことによって,一般的な仮定に挑戦する。
本稿では,KL分散制御,参照ポリシリセット,多種多様なタスクを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析によると、RLで訓練されたモデルは、試行数に関係なく、ベースモデルが完全に失敗するシナリオを含む、幅広いパス@k評価において、ベースモデルよりも一貫して優れています。
さらに、推論境界の改善は、ベースモデルのタスク能力とトレーニング期間と強く相関していることを示し、RLが時間とともに解空間の新しい領域を探索し、蓄積できることを示唆する。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件に関する新たな知見を与え、推論のための長期RL研究の基盤を確立する。
さらなる研究を支援するためのモデルウェイトをリリースする:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
関連論文リスト
- ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling [29.818409458662344]
LlamaやQwenのような異なる言語モデルファミリーは、強化学習(RL)による後訓練中に異なる行動を示す
本研究では,MegaMath-Web-Proのような高品質な数学的コーパスがベースモデルとRL性能の両方を著しく改善することを明らかにする。
2段階の中間訓練戦略であるStable-then-Decayを導入し、ベースモデルを学習率を一定とした200Bトークンでトレーニングし、その後CoTに着目した3つのブランチで20Bトークンを学習速度を劣化させた。
論文 参考訳(メタデータ) (2025-06-25T14:58:13Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。