論文の概要: Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
- arxiv url: http://arxiv.org/abs/2604.13016v1
- Date: Tue, 14 Apr 2026 17:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.597008
- Title: Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
- Title(参考訳): 大規模言語モデルのオンライン蒸留再考:現象学・メカニズム・レシピ
- Authors: Yaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding,
- Abstract要約: オンライン蒸留(OPD)は,大規模言語モデルのポストトレーニングにおける中核的な技術となっている。
本稿では,OPDの力学と機構を体系的に研究する。
- 参考スコア(独自算出の注目度): 36.507858889603845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.
- Abstract(参考訳): オンライン蒸留 (OPD) は, 大規模言語モデルのポストトレーニングにおいて中核的な技術となっているが, トレーニングのダイナミクスはいまだによく分かっていない。
本稿では,OPDの力学と機構を体系的に研究する。
私たちはまず、OPDが成功するか失敗するかの2つの条件が支配されていることを確認します。
一 生徒と教師が相容れない思考パターンを共有すること。
(二)一貫した思考パターンと高い得点であっても、教師は、訓練中に生徒が見たもの以上の、真に新しい能力を提供しなければならない。
本研究は,同族1.5Bと7Bの教員が,学生の立場から分散的に区別できないことを示し,弱い逆蒸留によってこれらの知見を検証した。
トークンレベル機構を考察した結果, OPD の成功は, 確率質量 (97%-99%) の大部分を集中する小さな共有トークンセットである, 高確率トークンの段階的アライメントによって特徴づけられることがわかった。
さらに,OPDの障害回復のための実践的戦略として,非政治的冷戦開始と教師の対応した即時選択の2つを提案する。
最後に, OPD の高濃度トークンレベル報酬に対する明らかな無料ランチはコストがかかることを示し, 長期蒸留にスケールできるかどうかを疑問視する。
関連論文リスト
- SODA: Semi On-Policy Black-Box Distillation for Large Language Models [19.748920924563546]
大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
4つのコンパクトQwen2.5およびLlama-3モデルのセミ評価は、このセミオン政治パラダイムを検証する。
トレーニングを10倍速くし、27%のピークGPUメモリを消費し、対向不安定性を完全に排除しながら、この優れた蒸留品質を実現する。
論文 参考訳(メタデータ) (2026-04-04T21:38:22Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Distilling Realizable Students from Unrealizable Teachers [9.968083244726941]
特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。
既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。
i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
論文 参考訳(メタデータ) (2025-05-14T16:45:51Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。
このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。
実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T12:24:15Z) - Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step [133.60124577507727]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。
オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。
そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるChain-of-Thought Distillation (SCoTD)を紹介した。
論文 参考訳(メタデータ) (2023-06-24T20:15:07Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。