論文の概要: ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
- arxiv url: http://arxiv.org/abs/2602.03075v1
- Date: Tue, 03 Feb 2026 04:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.234356
- Title: ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
- Title(参考訳): ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
- Authors: Junjie Huang, Jiarui Qin, Di Yin, Weiwen Liu, Yong Yu, Xing Sun, Weinan Zhang,
- Abstract要約: トレーニングのダイナミクスを分析し,中間学習フェーズをモデル能力の重要な転換点として同定する。
本稿では,ReMiT(Reinforcement Learning-Guided Mid-Training)を導入する。
- 参考スコア(独自算出の注目度): 49.496216822640974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の標準的なトレーニングパイプラインは、通常、一方向であり、事前トレーニングから後トレーニングまで進行する。
しかし、双方向プロセスの可能性 - トレーニング後の洞察 - トレーニング済みの基礎を遡及的に改善する - は、未調査のまま残されている。
自己強化型フライホイールの確立を目指しており、強化学習(RL)で調整したモデルがベースモデルを強化し、その後の性能向上を図り、特別な訓練を受けた教師や参照モデルを必要としないようにする。
これを実現するために、トレーニングダイナミクスを分析し、中級トレーニング(アニーリング)フェーズをモデル機能の重要な転換点として同定する。
この相は典型的には事前学習の終わりに発生し、急速に減衰する学習速度の下で高品質なコーパスを利用する。
この知見に基づいて、ReMiT(Reinforcement Learning-Guided Mid-Training)を紹介する。
具体的には、ReMiTは、RLで調整されたモデルの推論先を、中間トレーニングフェーズで動的にリウェイトトークンに利用し、推論の要点を優先順位付けする。
経験的に、ReMiTは、数学、コード、一般的な推論にまたがる10のトレーニング前のベンチマークで平均3倍の改善を達成し、トレーニング後のパイプライン全体でこれらの向上を2倍以上維持する。
これらの結果は繰り返しフィードバックループを検証し,LLMの連続的・自己強化的進化を可能にする。
関連論文リスト
- On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - RLP: Reinforcement as a Pretraining Objective [103.45068938532923]
我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-26T17:53:54Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - EvoLM: In Search of Lost Language Model Training Dynamics [97.69616550374579]
EvoLMは、事前トレーニング、継続事前トレーニング、教師付き微調整、強化学習を含む、LMのトレーニングダイナミクスの体系的かつ透過的な分析を可能にするモデルスイートである。
1Bおよび4Bパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、上流(言語モデリング)と下流(確率解決)の両方の推論能力を評価する。
論文 参考訳(メタデータ) (2025-06-19T04:58:47Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。