論文の概要: The Art of Scaling Reinforcement Learning Compute for LLMs
- arxiv url: http://arxiv.org/abs/2510.13786v1
- Date: Wed, 15 Oct 2025 17:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.792647
- Title: The Art of Scaling Reinforcement Learning Compute for LLMs
- Title(参考訳): LLMのスケーリング強化学習技術
- Authors: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal,
- Abstract要約: 強化学習(RL)は、大規模言語モデルの訓練の中心となっている。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
- 参考スコア(独自算出の注目度): 52.71086085139566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)のトレーニングの中心となっているが、事前学習に確立された手法に匹敵する予測スケーリング手法が欠如している。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
LLMにおけるRLスケーリングを解析・予測するための基本的フレームワークを定義するため,40,000GPU時間を超える大規模な研究を行った。
我々は、RLトレーニングにシグモダルな計算性能曲線を適合させ、その効果を漸近的性能と計算効率に与える影響を分析するために、幅広い共通設計選択を緩和する。
1)全てのレシピが類似した漸近的性能を得る訳ではなく,(2)損失集約,正規化,カリキュラム,および非政治アルゴリズムといった細部は,漸近的シフトを伴わずに主に計算効率を変調し,(3)安定かつスケーラブルなレシピは,予測可能なスケーリングトラジェクトリに従い,より小規模な実行から外挿を可能にする。
これらの知見を組み合わせることで、ベストプラクティスのレシピであるScaleRLを提案し、その効果を1つのRL上での検証性能を10000GPU時間までスケールアップし、予測することで、その効果を実証する。
我々の研究は、RLのスケーリングを分析する科学的フレームワークと、事前学習で長年達成されてきた予測可能性にRLトレーニングを近づける実践的なレシピの両方を提供する。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning [42.80470927369973]
我々は、モデルスケール、データボリューム、計算予算がどのように相互作用し、パフォーマンスを形作るかを研究する。
より少ないステップでトレーニングされたより大きなモデルは、より多くのステップでトレーニングされた小さなモデルよりも一貫して優れています。
データ制約されたレシエーションでは、高品質なデータの繰り返し再利用は極めて効果的である。
論文 参考訳(メタデータ) (2025-09-29T17:10:35Z) - Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。