論文の概要: PACED: Distillation at the Frontier of Student Competence
- arxiv url: http://arxiv.org/abs/2603.11178v1
- Date: Wed, 11 Mar 2026 18:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.558883
- Title: PACED: Distillation at the Frontier of Student Competence
- Title(参考訳): PACED:学生能力の最前線での蒸留
- Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang,
- Abstract要約: Pacedは、近縁開発ゾーンに蒸留を集中させるフレームワークである。
逆KLを持つ命令調整モデルでは、ゲインはベースラインを超える。
フォワードKL-then-reverse-KLスケジュールは、我々の設定において最強の結果をもたらす。
- 参考スコア(独自算出の注目度): 17.384089089363382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard LLM distillation wastes compute on two fronts: problems the student has already mastered (near-zero gradients) and problems far beyond its reach (incoherent gradients that erode existing capabilities). We show that this waste is not merely intuitive but structurally inevitable: the gradient signal-to-noise ratio in distillation provably vanishes at both pass-rate extremes. This theoretical observation leads to Paced, a framework that concentrates distillation on the zone of proximal development -- the frontier of a student model's competence -- via a principled pass-rate weight $w(p) = p^α(1 - p)^β$ derived from the boundary-vanishing structure of distillation gradients. Key results: (1) Theory: We prove that the Beta kernel $w(p) = p^α(1-p)^β$ is a leading-order weight family arising from the SNR structure of distillation, and that it is minimax-robust -- under bounded multiplicative misspecification, worst-case efficiency loss is only $O(δ^2)$. (2)Distillation: On distillation from a larger teacher to a smaller student model with forward KL, Paced achieves significant gain over the base model, while keeping benchmark forgetting at a low level. (3)Self-distillation: On instruction-tuned models with reverse KL, gains are exceeding baselines as well. (4)Two-stage synergy: A forward-KL-then-reverse-KL schedule yields the strongest results in our setting, reaching substantial improvements on standard reasoning benchmarks -- supporting a mode-coverage-then-consolidation interpretation of the distillation process. All configurations require only student rollouts to estimate pass rates, need no architectural changes, and are compatible with any KL direction.
- Abstract(参考訳): 標準LLM蒸留廃棄物は、学生が既に習得した問題(ほぼゼロ勾配)と、その到達範囲を超えた問題(既存の能力を損なう不整合勾配)の2つの面で計算される。
この廃棄物は直感的なだけでなく構造的にも避けられないものであり, 蒸留における勾配信号-雑音比は, 双方の通過速度の極端で確実に消失することを示す。
この理論的な観察は、学生モデルの能力のフロンティアである近位発展のゾーンに蒸留を集中させる枠組みであるPacedを、蒸留勾配の境界消滅構造から導いた、原則化されたパスレートの重量$w(p) = p^α(1 - p)^β$によって導く。
主な結果:(1) 理論: ベータ核 $w(p) = p^α(1-p)^β$ は蒸留の SNR 構造から生じる最上位の重みファミリーであり、また、有界乗法的不特定性の下では、最悪のケース効率損失はわずか$O(δ^2)$であることを示す。
2) 蒸留: より大きい教師からより小さい学生へのKLの蒸留では, ベンチマークを低レベルに保ちながら, 基礎モデルよりも大きく向上した。
(3)自己蒸留:逆KLの命令調整モデルでは、ゲインもベースラインを超えている。
(4)2段階の相乗効果: フォワード-KL-then-reverse-KLスケジュールは, 蒸留プロセスのモード被覆-then-consolidation解釈をサポートする標準推論ベンチマークにおいて, 大幅に改善された。
すべての構成では、合格率を見積もるためにのみ学生のロールアウトが必要で、アーキテクチャの変更は不要で、任意のKL方向と互換性がある。
関連論文リスト
- HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation [19.13058927652914]
本稿では,この推論ギャップを埋めるためのRLフリーフレームワークであるHendsight Entropy-Assisted Learning (HEAL)を提案する。
HEALは3つのコアモジュールを相乗化している:(1)エントロピー・アシスト修復(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR))、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)3段階)。
論文 参考訳(メタデータ) (2026-03-11T03:12:10Z) - Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - Knowledge distillation through geometry-aware representational alignment [3.901188865224763]
既存の特徴蒸留法では, 損失ゼロであっても, 特徴構造を捕捉できないことを示す。
次に、プロクリスト距離と特徴文法行列のフロベニウスノルムの使用を動機付け、すでに表現的アライメントの測定の文脈で一般的な距離である。
本手法による特徴蒸留は,言語モデルファミリー間での蒸留性能の統計的に有意な改善を示すことを示す。
論文 参考訳(メタデータ) (2025-09-27T09:59:46Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文 参考訳(メタデータ) (2022-10-25T07:07:54Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。