論文の概要: The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
- arxiv url: http://arxiv.org/abs/2605.11182v1
- Date: Mon, 11 May 2026 19:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.392778
- Title: The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
- Title(参考訳): オンライン蒸留の多面的側面--ピットフォール, 機構, 固定
- Authors: Siqi Zhu, Xuyan Ye, Hongyu Lu, Weiye Shi, Ge Liu,
- Abstract要約: オンライン蒸留(OPD)とオンライン自己蒸留(OPSD)は,大規模言語モデルのための有望なポストトレーニング手法として出現している。
我々は、OPDとOPSDがいつ機能するか、いつ機能しないのか、なぜ機能しないのかについて、総合的な実証的研究を行った。
- 参考スコア(独自算出の注目度): 10.319573084070578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.
- Abstract(参考訳): オンライン蒸留 (OPD) とオンライン自己蒸留 (OPSD) は、大規模言語モデルの訓練後の有望な手法として登場し、モデル独自の方針からサンプリングされた軌跡に対するトークンレベルの密接な監督を提供する。
OP(S)Dはシステムプロンプトと知識の内在化を約束する一方で、最近の研究では不安定性と劣化を報告している。
本研究は,OPDとOPSDがいつ機能するか,いつ機能しないのか,なぜ機能しないのかに関する総合的研究である。
数式推論におけるOPDは教師の選択や損失の定式化に非常に敏感であるのに対し,OPSDはインスタンス固有特権情報(PI)の試験時間欠如によりテスト環境では失敗する。
対照的に、OPSDはPIがシステムプロンプトやアライメント優先のような共有潜在ルールを表す場合に有効である。
本研究では,(1) 学生が生成した接頭辞の条件付けによる教師と生徒のミスマッチ,(2) バイアス付きTopK逆KL勾配からの最適化の不安定性,(3) 学生がPI条件の教師を集約するPIフリーポリシーを学習するOPSD固有の制限,の3つの障害メカニズムを同定する。
さらに、停止段階のTopK目標、RLVR対応の教師、SFT安定化した学生がこれらの失敗を軽減していることを示す。
関連論文リスト
- On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - SOD: Step-wise On-policy Distillation for Small Language Model Agents [32.49707795291693]
ツール統合推論は、小さな言語モデルにスケールすることが難しい。
近年,教師から密集したトークンレベルの監督を施すことで,オンライン蒸留が普及している。
スモールランゲージモデルエージェントのための段階的オンライン蒸留フレームワークであるSODを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:30:42Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe [36.507858889603845]
オンライン蒸留(OPD)は,大規模言語モデルのポストトレーニングにおける中核的な技術となっている。
本稿では,OPDの力学と機構を体系的に研究する。
論文 参考訳(メタデータ) (2026-04-14T17:54:28Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。