論文の概要: RLP: Reinforcement as a Pretraining Objective
- arxiv url: http://arxiv.org/abs/2510.01265v1
- Date: Fri, 26 Sep 2025 17:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.771301
- Title: RLP: Reinforcement as a Pretraining Objective
- Title(参考訳): RLP:事前学習対象としての強化
- Authors: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi,
- Abstract要約: 我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
- 参考スコア(独自算出の注目度): 103.45068938532923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The dominant paradigm for training large reasoning models starts with pre-training using next-token prediction loss on vast amounts of data. Reinforcement learning, while powerful in scaling reasoning, is introduced only as the very last phase of post-training, preceded by supervised fine-tuning. While dominant, is this an optimal way of training? In this paper, we present RLP, an information-driven reinforcement pretraining objective, that brings the core spirit of reinforcement learning -- exploration -- to the last phase of pretraining. The key idea is to treat chain-of-thought as an exploratory action, with rewards computed based on the information gain it provides for predicting future tokens. This training objective essentially encourages the model to think for itself before predicting what comes next, thus teaching an independent thinking behavior earlier in the pretraining. More concretely, the reward signal measures the increase in log-likelihood of the next token when conditioning on both context and a sampled reasoning chain, compared to conditioning on context alone. This approach yields a verifier-free dense reward signal, allowing for efficient training for the full document stream during pretraining. Specifically, RLP reframes reinforcement learning for reasoning as a pretraining objective on ordinary text, bridging the gap between next-token prediction and the emergence of useful chain-of-thought reasoning. Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an eight-benchmark math-and-science suite by 19%. With identical post-training, the gains compound, with the largest improvements on reasoning-heavy tasks such as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2 increases the overall average from 42.81% to 61.32% and raises the average on scientific reasoning by 23%, demonstrating scalability across architectures and model sizes.
- Abstract(参考訳): 大きな推論モデルをトレーニングする主要なパラダイムは、大量のデータに対して、次のトーケン予測損失を使用した事前トレーニングから始まる。
強化学習は、スケーリング推論において強力であるが、教師付き微調整に先立って、ポストトレーニングの最終段階としてのみ導入される。
支配的ではあるが、これは最適なトレーニング方法なのだろうか?
本稿では、情報駆動型強化事前訓練目標であるRLPについて、強化学習のコアスピリットである探索を事前訓練の最終段階へと導く。
鍵となるアイデアは、チェーン・オブ・シントを探索行動として扱い、将来のトークンを予測するための情報収集に基づいて報酬を計算することである。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
より具体的には、報酬信号は、コンテキストのみの条件付けと比較して、コンテキストとサンプル推論チェーンの両方で条件付けを行う場合、次のトークンのログライクな増加を測定する。
このアプローチは検証不要な高密度報酬信号をもたらし、事前トレーニング中に全ドキュメントストリームの効率的なトレーニングを可能にする。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
Qwen3-1.7B-Base での RLP の事前トレーニングは8ベンチマークの数学と科学のスイート全体の平均を19%引き上げる。
AIME25 や MMLU-Pro のような推論量の多いタスクで最大の改善が加えられた。
RLPをハイブリッドなNemotron-Nano-12B-v2に適用すると、全体的な平均値が42.81%から61.32%に上昇し、科学的な推論で平均値が23%上昇し、アーキテクチャやモデルサイズにまたがるスケーラビリティを実証する。
関連論文リスト
- Reinforcement Mid-Training [16.826401071555704]
トレーニング中における効率,適応性,統一的な強化のためのフレームワークを提案する。
RMTは,言語モデリングにおける推論長の21%に過ぎず,+64.91%の性能向上を実現している。
また, 強化中等訓練後に得られたチェックポイントは, その後のトレーニングに有効であり, 数学領域では+18.76%の改善が得られた。
論文 参考訳(メタデータ) (2025-09-29T07:21:24Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - BOW: Reinforcement Learning for Bottlenecked Next Word Prediction [9.219154888448736]
次単語予測(NWP)のRL式であるbottle next-Word Prediction(BOW)を提案する。
BOWはバニラNWPの代替であり、明示的な次の単語推論を誘発し、一般的な推論能力を強化する。
論文 参考訳(メタデータ) (2025-06-16T13:58:54Z) - Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文 参考訳(メタデータ) (2025-06-09T17:59:53Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。