論文の概要: Delta Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14526v1
- Date: Thu, 18 Sep 2025 01:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.019935
- Title: Delta Knowledge Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルのためのデルタ知識蒸留
- Authors: Yihan Cao, Yanbin Kang, Zhengming Xing, Ruijie Jiang,
- Abstract要約: 知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって、大きなニューラルネットワークを圧縮するための広く採用されているアプローチである。
教師の指導的微調整(SFT)で導入された分布シフトデルタを明示的に保存することにより,学生が最適な表現空間を近似するように促す,トークンレベルKDの新たな拡張であるデルタ知識蒸留(Delta-KD)を提案する。
ROUGE測定の実証結果から,デルタKDは教員の知識を多く保持しながら,学生のパフォーマンスを大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 3.1008851685907355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a widely adopted approach for compressing large neural networks by transferring knowledge from a large teacher model to a smaller student model. In the context of large language models, token level KD, typically minimizing the KL divergence between student output distribution and teacher output distribution, has shown strong empirical performance. However, prior work assumes student output distribution and teacher output distribution share the same optimal representation space, a premise that may not hold in many cases. To solve this problem, we propose Delta Knowledge Distillation (Delta-KD), a novel extension of token level KD that encourages the student to approximate an optimal representation space by explicitly preserving the distributional shift Delta introduced during the teacher's supervised finetuning (SFT). Empirical results on ROUGE metrics demonstrate that Delta KD substantially improves student performance while preserving more of the teacher's knowledge.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって、大きなニューラルネットワークを圧縮するための広く採用されているアプローチである。
大規模言語モデルの文脈では、学生出力分布と教師出力分布のKL分散を最小化するトークンレベルKDは、強い経験的性能を示している。
しかし、先行研究では、学生の出力分布と教師の出力分布が同じ最適な表現空間を共有していると仮定している。
この問題を解決するために,教師の指導的微調整(SFT)で導入された分布シフトデルタを明示的に保存することにより,学生が最適な表現空間を近似するように促す,トークンレベルKDの新たな拡張であるデルタ知識蒸留(Delta-KD)を提案する。
ROUGE測定の実証結果から,デルタKDは教員の知識を多く保持しながら,学生のパフォーマンスを大幅に向上させることが示された。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。