論文の概要: Reinforcement Mid-Training
- arxiv url: http://arxiv.org/abs/2509.24375v1
- Date: Mon, 29 Sep 2025 07:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.814423
- Title: Reinforcement Mid-Training
- Title(参考訳): 強化ミッドトレーニング
- Authors: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang,
- Abstract要約: トレーニング中における効率,適応性,統一的な強化のためのフレームワークを提案する。
RMTは,言語モデリングにおける推論長の21%に過ぎず,+64.91%の性能向上を実現している。
また, 強化中等訓練後に得られたチェックポイントは, その後のトレーニングに有効であり, 数学領域では+18.76%の改善が得られた。
- 参考スコア(独自算出の注目度): 16.826401071555704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of state-of-the-art large language models is commonly understood as a two-stage process involving pre-training and post-training. We point out the need for an additional intermediate stage called reinforcement mid-training with potential for strong performance gains. In this paper, we formally define the problem and identify three key challenges: (1) inefficient training due to excessive reasoning steps, (2) disregard of the imbalanced token entropy distribution, and (3) underutilization of token information. To address these challenges, we propose RMT, a framework for efficient, adaptive, and unified reinforcement mid-training with various innovative components. In particular, we first introduce a dynamic token budget mechanism that constrains unnecessary reasoning steps and mitigates model overthinking. Next, we design a curriculum-based adaptive sampling method that fosters a progressive learning trajectory from easy to hard tokens. Finally, we present a dual training strategy that combines reinforcement learning with next-token prediction, ensuring targeted learning on key tokens and full exploitation of all token information. Extensive experiments demonstrate the superiority of RMT over state-of-the-art methods, achieving up to +64.91% performance improvement with only 21% of the reasoning length in language modeling. We also show that checkpoints obtained after reinforcement mid-training can benefit the subsequent post-training, yielding up to +18.76% improvement in the mathematical domain.
- Abstract(参考訳): 最先端の大規模言語モデルの開発は、事前訓練と後訓練を含む2段階のプロセスとして一般的に理解されている。
我々は、高い性能向上の可能性を秘めた強化ミッドトレーニングと呼ばれる追加の中間段階の必要性を指摘する。
本稿では,(1)過剰な推論ステップによる非効率なトレーニング,(2)不均衡なトークンエントロピー分布の無視,(3)トークン情報の過小活用,の3つの課題を正式に定義する。
これらの課題に対処するため、様々な革新的コンポーネントを組み込んだ、効率的で適応的で統一された強化フレームワークであるRTTを提案する。
特に、不要な推論ステップを制約し、過度に考え直したモデルを緩和する動的なトークン予算機構を最初に導入する。
次に,難易度から難易度まで,段階的な学習軌跡を育成するカリキュラムベースの適応サンプリング手法を設計する。
最後に、強化学習と次の学習予測を併用し、鍵トークンのターゲット学習と全てのトークン情報のフル活用を確実にするデュアルトレーニング戦略を提案する。
大規模な実験では、RTTが最先端の手法よりも優れていることが示され、言語モデリングにおける推論長の21%しか持たない+64.91%のパフォーマンス向上が達成された。
また, 強化中等訓練後に得られたチェックポイントは, その後のトレーニングに有効であり, 数学領域では+18.76%の改善が得られた。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - EvoLM: In Search of Lost Language Model Training Dynamics [97.69616550374579]
EvoLMは、事前トレーニング、継続事前トレーニング、教師付き微調整、強化学習を含む、LMのトレーニングダイナミクスの体系的かつ透過的な分析を可能にするモデルスイートである。
1Bおよび4Bパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、上流(言語モデリング)と下流(確率解決)の両方の推論能力を評価する。
論文 参考訳(メタデータ) (2025-06-19T04:58:47Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - How to Train Your Multi-Exit Model? Analyzing the Impact of Training Strategies [3.1836117900874825]
早期の出口は、トレーニング可能な内部分類器をバックボーンネットワークにアタッチすることで、ネットワークの前方通過が早期に終了することを可能にする。
既存のアーリーエグジット法は、一般的には、バックボーンと出口ヘッドを同時に訓練するジョイントトレーニングアプローチ、またはヘッドを別々に訓練するディスジョイントアプローチを採用する。
本稿では,早期からのトレーニングダイナミクスを分析し,トレーニング戦略の選択を導くための指標について紹介する。
論文 参考訳(メタデータ) (2024-07-19T13:56:57Z) - Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。
外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。
このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文 参考訳(メタデータ) (2024-03-06T05:13:23Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。