論文の概要: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2509.25300v1
- Date: Mon, 29 Sep 2025 17:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.245751
- Title: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
- Title(参考訳): LLM強化学習後のスケーリング行動:数学的推論における実証的研究
- Authors: Zelin Tan, Hejia Geng, Mulei Zhang, Xiaohang Yu, Guancheng Wan, Yifan Zhou, Qiang He, Xiangyuan Xue, Heng Zhou, Yutao Fan, Zhongzhi Li, Zaibin Zhang, Guibin Zhang, Chen Zhang, Zhenfei Yin, Lei Bai,
- Abstract要約: 我々は、モデルスケール、データボリューム、計算予算がどのように相互作用し、パフォーマンスを形作るかを研究する。
より少ないステップでトレーニングされたより大きなモデルは、より多くのステップでトレーニングされた小さなモデルよりも一貫して優れています。
データ制約されたレシエーションでは、高品質なデータの繰り返し再利用は極めて効果的である。
- 参考スコア(独自算出の注目度): 42.80470927369973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While scaling laws for large language models (LLMs) during pre-training have been extensively studied, their behavior under reinforcement learning (RL) post-training remains largely unexplored. This paper presents a systematic empirical investigation of scaling behaviors in RL-based post-training, with a particular focus on mathematical reasoning. Based on 54 experiments across diverse model sizes and training settings, we characterize how model scale, data volume, and computational budget interact to shape performance. Our analysis leads to four key findings: (1). Under a fixed computational budget, larger models trained for fewer steps consistently outperform smaller models trained for more steps. (2). Given a fixed amount of training data, larger models achieve superior sample efficiency, yielding lower loss. (3). In data-constrained regimes, repeated reuse of high-quality data proves highly effective, as final performance is primarily governed by the total number of optimization steps rather than the uniqueness of samples. (4). These scaling behaviors are robust across both base and instruction-tuned models, which share similar learning dynamics (e.g., larger models show faster convergence) even while differing in absolute accuracy. Collectively, these results provide a principled foundation and practical guidelines for efficiently scaling the reasoning capabilities of LLMs through RL post-training.
- Abstract(参考訳): プレトレーニング中の大規模言語モデル(LLM)のスケーリング法則は広く研究されているが、強化学習(RL)後の行動は未解明のままである。
本稿では,RLに基づくポストトレーニングにおけるスケーリング行動の系統的研究を行い,特に数学的推論に焦点を当てた。
さまざまなモデルサイズとトレーニング設定にわたる54の実験に基づいて、モデルスケール、データボリューム、計算予算の相互作用を特徴付ける。
分析の結果,(1)の4つの重要な知見が得られた。
固定された計算予算の下では、より少ないステップで訓練されたより大きなモデルは、より多くのステップで訓練されたより小さなモデルより一貫して優れている。
(2)。
一定量のトレーニングデータを与えられた場合、より大きなモデルはより優れたサンプル効率を達成し、損失を小さくする。
(3)。
データ制約付きレシエーションでは、サンプルの特異性よりも最適化ステップの総数によって最終性能が支配されるため、高品質なデータの繰り返し再利用は極めて効果的である。
(4)。
これらのスケーリング動作は、ベースモデルと命令チューニングモデルの両方で堅牢であり、絶対精度が異なるにもかかわらず、類似の学習力学(例えば、より大きなモデルはより高速な収束を示す)を共有している。
これらの結果は,LL後学習を通してLLMの推論能力を効率的に拡張するための原則的基礎と実践的ガイドラインを提供する。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。
LLM は RFT に非常に矛盾しない応答が可能である。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。