論文の概要: Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2604.13010v1
- Date: Tue, 14 Apr 2026 17:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.593891
- Title: Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
- Title(参考訳): 照明用PD:オフライン常用蒸留による大型共振器モデルの効率的な後訓練
- Authors: Yecheng Wu, Song Han, Hai Cai,
- Abstract要約: オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
標準PDは、トレーニングを通してライブの教師推論サーバーを必要とし、その結果、かなりのインフラストラクチャーオーバーヘッドを発生させる。
我々は,教師の対数確率をSFTロールアウトにプリ計算することで教師の一貫性を強制するオフラインのオンライン蒸留フレームワークであるLightning OPDを提案する。
- 参考スコア(独自算出の注目度): 7.2992280064983825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.
- Abstract(参考訳): オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
しかし、標準のPDDでは、トレーニングを通してライブの教師推論サーバが必要であり、結果としてインフラのオーバーヘッドが大きくなる。
本研究は, オンライン蒸留をオフラインで行うことができるかどうかを考察する。
自然なアプローチは、SFTロールアウトで一度教師のログ確率をプリ計算し、トレーニング中に再利用することである。
しかし実際には、このオフライン版は標準PDの性能と確実に一致しない。
この相違を理解するために,教師の整合性という OPD パイプラインにとって重要な,これまで見過ごされていた条件を同定する。
この条件では、教師付き微調整とPDの両方に同じ教師モデルを使用する必要がある。
教師の一貫性を損なうことは、学習時間によらず、オフラインとオンラインのPDの両方が最適でない固定点に収束する原因となる、既約勾配バイアスをもたらすことを示す。
この知見に基づいて,教師の対数確率をSFTロールアウトにプリ計算することで教師の一貫性を強制するオフラインのオンライン蒸留フレームワークであるLightning OPDを提案する。
この設計により、ライブの教師サーバが完全に不要になる。
さらに、教師の整合性の下では、Lightning OPDは標準PDと同じ最適値を共有しており、境界勾配の差があり、政策のドリフトを防ぐ暗黙の規則化効果があることを示す。
数学的推論とコード生成に関する大規模な実験は、Lightning OPDが最先端のパフォーマンスを実現し、効率が大幅に向上したことを示している。
SFT-Initialized Qwen3-8B-Baseモデルから始め、Lightning OPDはAIME 2024でわずか30GPU時間で69.9%に達した。
関連論文リスト
- VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation [14.33516456804297]
On-Policy VLA Distillation (VLA-OPD)は、オンライン強化学習(RL)の効率をオフライン監視ファインチューニング(SFT)の堅牢性でブリッジするフレームワークである。
論文 参考訳(メタデータ) (2026-03-27T17:59:33Z) - Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment [16.352863226512984]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、分散シフト下でのゼロショットロバスト性を高める。
ほとんどのメソッドは、スケーラビリティを制限し、リアルタイムデプロイメントを妨げるバックプロパゲーションや反復最適化に依存しています。
本稿では,Advanced Distribution-AwareとBack propagation-free Test-time Adapting法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:42:49Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。