論文の概要: Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08527v1
- Date: Thu, 09 Apr 2026 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.067617
- Title: Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models
- Title(参考訳): Demystifying OPD:大規模言語モデルにおける長さインフレーションと安定化戦略
- Authors: Feng Luo, Yu-Neng Chuang, Guanchu Wang, Zicheng Xu, Xiaotian Han, Tianyi Zhang, Vladimir Braverman,
- Abstract要約: オンライン蒸留(OPD)は、より強い教師の監督を生かしながら、生徒の自給自足で生徒モデルを訓練する。
トレーニングが進むにつれて、オンラインのロールアウトは急激な長さのインフレーションを受けることができ、乱れた軌道がトレーニングデータを支配します。
この乱れ崩壊は、急激な繰り返し飽和と一致し、偏りのある勾配信号を誘導し、厳しい訓練不安定と検証性能の急激な劣化をもたらす。
本稿では, 参照型分散制約とロールアウト混合蒸留を組み合わせた安定化OPDフレームワークであるStableOPDを提案する。
- 参考スコア(独自算出の注目度): 35.70546523782139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) trains student models under their own induced distribution while leveraging supervision from stronger teachers. We identify a failure mode of OPD: as training progresses, on-policy rollouts can undergo abrupt length inflation, causing truncated trajectories to dominate the training data. This truncation collapse coincides with abrupt repetition saturation and induces biased gradient signals, leading to severe training instability and sharp degradation in validation performance. We attribute this problem to the interaction between student-induced data collection and the distillation objective, which implicitly favors long and repetitive rollouts. To address this issue, we propose StableOPD, a stabilized OPD framework that combines a reference-based divergence constraint with rollout mixture distillation. These together mitigate repetition-induced length inflation and further stabilize OPD training. Across multiple math reasoning datasets, our approach prevents truncation collapse, stabilizes training dynamics, and improves performance by 7.2% on average.
- Abstract(参考訳): オンライン蒸留(OPD)は、より強い教師の監督を生かしながら、生徒の自給自足で生徒モデルを訓練する。
トレーニングが進むにつれて、オンラインのロールアウトは急激な長さのインフレーションを受けることができ、トラジェクトリが乱れ、トレーニングデータを支配します。
この乱れ崩壊は、急激な繰り返し飽和と一致し、偏りのある勾配信号を誘導し、厳しい訓練不安定と検証性能の急激な劣化をもたらす。
この問題は,学生によるデータ収集と蒸留目標との相互作用によるもので,長期的かつ反復的なロールアウトを暗黙的に好んでいる。
この問題に対処するため,本研究では,参照ベース分散制約とロールアウト混合蒸留を組み合わせた安定化OPDフレームワークであるStableOPDを提案する。
これらは反復誘起長インフレーションを緩和し、OPDトレーニングをさらに安定化させる。
複数の数学推論データセット全体にわたって、本手法はトランケーション崩壊を防止し、トレーニングダイナミクスを安定化し、平均7.2%の性能向上を図る。
関連論文リスト
- VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation [14.33516456804297]
On-Policy VLA Distillation (VLA-OPD)は、オンライン強化学習(RL)の効率をオフライン監視ファインチューニング(SFT)の堅牢性でブリッジするフレームワークである。
論文 参考訳(メタデータ) (2026-03-27T17:59:33Z) - Analyzing and Improving Diffusion Models for Time-Series Data Imputation: A Proximal Recursion Perspective [45.713195454899875]
拡散モデル(DM)は時系列データインプットを約束している。
DMの性能は複雑なシナリオでは相容れない。
我々はSPIRIT(Semi-proximal Transport Regularized Time-Series Imputation)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:11:57Z) - Entropy Production in Machine Learning Under Fokker-Planck Probability Flow [0.0]
非平衡コストダイナミクスに基づくエントロピーに基づく再学習フレームワークを提案する。
エントロピートリガーを用いたリトレーニングにより,高周波リトレーニングに匹敵する予測性能が得られることを示す。
論文 参考訳(メタデータ) (2026-01-02T04:01:57Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models [27.0496567592082]
大規模言語モデルにおけるアライメントと推論能力の開発は目覚ましい進歩を遂げた。
RLHFを蒸留訓練モデルに適用する第3のパラダイムは、重大な課題を示す。
本稿では,2段階重み付きモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
論文 参考訳(メタデータ) (2025-08-30T01:53:25Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。