論文の概要: Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2502.11766v1
- Date: Mon, 17 Feb 2025 12:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:22.116422
- Title: Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation
- Title(参考訳): ウォームアップ蒸留:知識蒸留前の教師と生徒の分散ミスマッチを橋渡しする
- Authors: Zengkui Sun, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: 本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
- 参考スコア(独自算出の注目度): 84.38105530043741
- License:
- Abstract: The widespread deployment of Large Language Models (LLMs) is hindered by the high computational demands, making knowledge distillation (KD) crucial for developing compact smaller ones. However, the conventional KD methods endure the distribution mismatch issue between the teacher and student models, leading to the poor performance of distillation. For instance, the widely-used KL-based methods suffer the mode-averaging and mode-collapsing problems, since the mismatched probabitliy distribution between both models. Previous studies mainly optimize this issue via different distance calculations towards the distribution of both models. Unfortunately, the distribution mismatch issue still exists in the early stage of the distillation. Hence, to reduce the impact of distribution mismatch, we propose a simple yet efficient method, named Warmup-Distill, which aligns the distillation of the student to that of the teacher in advance of distillation. Specifically, we first detect the distribution of the student model in practical scenarios with its internal knowledge, and then modify the knowledge with low probability via the teacher as the checker. Consequently, Warmup-Distill aligns the internal student's knowledge to that of the teacher, which expands the distribution of the student with the teacher's, and assists the student model to learn better in the subsequent distillation. Experiments on the seven benchmarks demonstrate that Warmup-Distill could provide a warmup student more suitable for distillation, which outperforms the vanilla student by as least +0.4 averaged score among all benchmarks. Noteably, with the assistance of Warmup-Distill, the distillation on the math task could yield a further improvement, at most +1.9% accuracy.
- Abstract(参考訳): LLM(Large Language Models)の広範な展開は高い計算要求によって妨げられ、より小型の言語を開発するために知識蒸留(KD)が不可欠となる。
しかし, 従来のKD法は, 教師モデルと学生モデルとのミスマッチ問題に耐えられ, 蒸留性能の低下を招いた。
例えば、広く使われているKLベースの手法は、両方のモデル間のミスマッチした確率分布のため、モード回避とモード折り畳みの問題に悩まされる。
従来の研究は主に、異なる距離計算によってこの問題を最適化し、両方のモデルの分布を最適化していた。
残念ながら、散布ミスマッチの問題はまだ蒸留の初期段階にある。
そこで, 分散ミスマッチの影響を低減するため, 学生の蒸留と教師の蒸留を連携させて, 簡易かつ効率的なワームアップ蒸留法を提案する。
具体的には、まず内部知識を用いた実践シナリオにおける学生モデルの分布を検知し、教師をチェッカーとして低確率で修正する。
その結果、Warmup-Distillは、内部の学生の知識を教師の知識と整合させ、生徒と教師の分布を拡大し、その後の蒸留で学習する学生モデルを支援する。
7つのベンチマークの実験では、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供する可能性があることが示され、バニラの学生は全てのベンチマークの中で最低で0.4点のスコアで上回っている。
Warmup-Distillの助けを借りて、数学タスクの蒸留は、少なくとも+1.9%の精度で更なる改善をもたらす可能性がある。
関連論文リスト
- Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。
このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。
実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T12:24:15Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。