論文の概要: Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration
- arxiv url: http://arxiv.org/abs/2605.28184v1
- Date: Wed, 27 May 2026 09:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.918519
- Title: Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration
- Title(参考訳): 最適係数校正による強化学習における多段階予測の共同訓練
- Authors: Zili Wang, Jiajun Chai, Lin Chen, Xiaohan Wang, Shiming Xiang, Guojun Yin,
- Abstract要約: MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
- 参考スコア(独自算出の注目度): 61.46060073417047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as the standard paradigm for improving reasoning capability of large language models, while Multi-Token Prediction (MTP) has been a widely adopted module in pretraining. Combining them is a natural approach, yet current RL practices detach MTP gradients because joint training degrades the performance. We revisit this failure from an optimization perspective. We show that the per-step effect of MTP on the RL objective can be decomposed into two terms: a first-order correlation and a second-order perturbation penalty. This decomposition unifies three MTP training regimes: Detach, Cross-Entropy loss, and Policy loss, and explains why each succeeds or fails. Further analysis of policy loss reveals that, although it aligns with intuition, performance still degrades: the correlation term decays while the quadratic penalty persists. Guided by the analysis, we propose Optimal Coefficient Calibration (OCC), an adaptive scheme that tracks the optimal coefficient online via a log-probability proxy at negligible cost. Across six competition-level mathematical reasoning benchmarks, OCC consistently matches or exceeds the detach baseline, delivering improved joint MTP-RL training performance.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力向上のための標準パラダイムとして登場し、Multi-Token Prediction (MTP) は事前学習において広く採用されているモジュールである。
それらの組み合わせは自然なアプローチであるが、現在のRLは、共同トレーニングがパフォーマンスを劣化させるため、MPP勾配を分離する。
最適化の観点から、この失敗を再考する。
RL目標に対するMPPの段差効果は,第1次相関と第2次摂動ペナルティの2つに分解できることを示す。
この分解は、デタック、クロスエントロピー損失、政策損失の3つのMTPトレーニング体制を統一し、それぞれが成功したか失敗したかを説明する。
政策損失のさらなる分析により、直観と一致しているが、性能は依然として低下し、相関項は崩壊し、二次的なペナルティは持続することが明らかになった。
そこで本研究では,最適係数のオンライン追跡手法であるOCC(Optimal Coefficient Calibration)を提案する。
6つの競合レベルの数学的推論ベンチマークで、OCCは一貫してデタッハベースラインを上回り、共同MTP-RL訓練性能が向上した。
関連論文リスト
- DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。