論文の概要: On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2512.07783v1
- Date: Mon, 08 Dec 2025 18:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.997016
- Title: On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
- Title(参考訳): 推論言語モデルにおける事前学習・中間学習・RLの相互作用について
- Authors: Charlie Zhang, Graham Neubig, Xiang Yue,
- Abstract要約: 最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
- 参考スコア(独自算出の注目度): 73.10315509190623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
- Abstract(参考訳): 近年の強化学習(RL)技術は、言語モデルにおいて顕著な推論改善をもたらしたが、後学習が、事前学習中に得られるものを超えて、モデルの推論能力を真に拡張するかどうかは不明である。
大規模な事前学習コーパスは不透明であり、中級トレーニングはしばしば過小評価され、RLの目的は複雑な方法で未知の事前知識と相互作用する。
この曖昧さを解決するために,本研究では,事前学習,中等訓練,およびRLに基づくポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
提案手法は, 明示的な原子操作, 解析可能なステップバイステップ推論トレース, 学習分布の体系的操作による合成推論タスクを用いる。
より複雑な構成への外挿的一般化と、表面的文脈における文脈的一般化の2つの軸に沿ったモデルを評価する。
このフレームワークを用いて、RLの有効性に関する競合する見解を整理する。
1) RL が真の能力向上(pass@128)をもたらすのは,事前学習が十分なヘッドルームを残している場合と,RL データがモデルの能力の限界を狙う場合のみである。
2) 文脈一般化には, 最小かつ十分な事前学習露光が必要であり, その後RLは確実に伝達可能である。
3)ミッドトレーニングは,RLのみと比較して,一定の計算条件下でのパフォーマンスを著しく向上させ,トレーニングパイプラインにおいて中心的だが過小評価されている役割を実証する。
4) プロセスレベルの報酬は、報酬のハッキングを減らし、推論の正確性を改善する。
これらの結果は,事前学習,中級学習,およびRLの相互作用を明らかにするとともに,LM学習戦略の理解と改善のための基盤を提供する。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。