論文の概要: SpecKD: Speculative Decoding for Effective Knowledge Distillation of LLMs
- arxiv url: http://arxiv.org/abs/2510.24021v1
- Date: Tue, 28 Oct 2025 03:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.729592
- Title: SpecKD: Speculative Decoding for Effective Knowledge Distillation of LLMs
- Title(参考訳): SpecKD: LLMの効果的な知識蒸留のための投機的復号法
- Authors: Haiduo Huang, Jiangcheng Song, Yadong Zhang, Pengju Ren,
- Abstract要約: Speculative Knowledge Distillation (SpecKD)は、動的でトークンレベルのゲーティング機構を導入した、新しいプラグアンドプレイフレームワークである。
SpecKDは、強い知識蒸留ベースラインを一貫して大幅に上回る。
- 参考スコア(独自算出の注目度): 7.838632409628936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) has become a cornerstone technique for compressing Large Language Models (LLMs) into smaller, more efficient student models. However, conventional KD approaches typically apply the distillation loss uniformly across all tokens, regardless of the teacher's confidence. This indiscriminate mimicry can introduce noise, as the student is forced to learn from the teacher's uncertain or high-entropy predictions, which may ultimately harm student performance-especially when the teacher is much larger and more powerful. To address this, we propose Speculative Knowledge Distillation (SpecKD), a novel, plug-and-play framework that introduces a dynamic, token-level gating mechanism inspired by the "propose-and-verify" paradigm of speculative decoding. At each step, the student's token proposal is verified against the teacher's distribution; the distillation loss is selectively applied only to "accepted" tokens, while "rejected" tokens are masked out. Extensive experiments on diverse text generation tasks show that SpecKD consistently and significantly outperforms strong KD baselines, leading to more stable training and more capable student models, and achieving state-of-the-art results.
- Abstract(参考訳): 知識蒸留(KD)は、大規模言語モデル(LLM)をより小さく、より効率的な学生モデルに圧縮するための基礎技術となっている。
しかしながら、従来のKDアプローチでは、教師の自信に関係なく、すべてのトークンに対して蒸留損失を均一に適用するのが一般的である。
この無差別な模倣は、生徒が教師の不確かさや高エントロピーの予測から学ばざるを得ず、最終的には生徒のパフォーマンスを損なう可能性がある。
提案するSpeculative Knowledge Distillation(SpecKD)は,投機的復号化のパラダイムから着想を得た,動的でトークンレベルのゲーティング機構を導入する,新しいプラグアンドプレイフレームワークである。
各ステップにおいて、学生のトークン提案が教師の配布に対して検証され、蒸留損失は「受け入れ」トークンのみに選択的に適用され、一方「拒絶」トークンはマスクアウトされる。
多様なテキスト生成タスクに関する大規模な実験により、SpecKDは強いKDベースラインを一貫して大幅に上回り、より安定した訓練とより有能な学生モデルが得られ、最先端の結果が得られた。
関連論文リスト
- PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning [30.70974942397732]
本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。
命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。
さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T09:10:08Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for
Face Recognition [84.49978494275382]
知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことである。
本研究では,顔認識におけるその応用に焦点を当てる。
本稿では,顔認識の精度を直接最適化するProxylessKDを提案する。
論文 参考訳(メタデータ) (2020-10-31T13:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。