Fugu-MT 論文翻訳(概要): Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation

論文の概要: Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation

arxiv url: http://arxiv.org/abs/2505.13111v1
Date: Mon, 19 May 2025 13:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.622107
Title: Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation
Title（参考訳）: 生産モデルにおける知識蒸留の効用:最小限の作業説明
Authors: Sungmin Cha, Kyunghyun Cho,
Abstract要約: 知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
参考スコア（独自算出の注目度）: 53.30082523545212
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation (KD) is a core component in the training and deployment of modern generative models, particularly large language models (LLMs). While its empirical benefits are well documented--enabling smaller student models to emulate the performance of much larger teachers--the underlying mechanisms by which KD improves generative quality remain poorly understood. In this work, we present a minimal working explanation of KD in generative modeling. Using a controlled simulation with mixtures of Gaussians, we demonstrate that distillation induces a trade-off between precision and recall in the student model. As the teacher distribution becomes more selective, the student concentrates more probability mass on high-likelihood regions at the expense of coverage--a behavior modulated by a single entropy-controlling parameter. We then validate this effect in a large-scale language modeling setup using the SmolLM2 family of models. Empirical results reveal the same precision-recall dynamics observed in simulation, where precision corresponds to sample quality and recall to distributional coverage. This precision-recall trade-off proves especially beneficial in scenarios where sample quality outweighs diversity, such as instruction tuning or downstream generation. Our analysis provides a simple and general explanation for the effectiveness of KD in generative modeling.
Abstract（参考訳）: 知識蒸留(KD)は、現代の生成モデル、特に大きな言語モデル(LLM)の訓練と展開における中核的な構成要素である。実験的な利点は十分に文書化されているが、より大規模な教師のパフォーマンスをエミュレートするために、より小さな学生モデルを導入し、KDが生成的品質を改善するメカニズムはいまだに理解されていない。本稿では、生成モデルにおけるKDの最小限の動作説明を示す。ガウスの混合物を用いた制御シミュレーションを用いて, 蒸留が学生モデルにおける精度とリコールのトレードオフを誘導することを示した。教師の分布がより選択的になるにつれて、生徒は1つのエントロピー制御パラメータによって変調された振る舞いを犠牲にして、高次領域により多くの確率質量を集中させる。次に、SmolLM2ファミリモデルを用いて、大規模言語モデリング設定において、この効果を検証する。実験の結果、シミュレーションで観察された精度-リコールのダイナミクスは、サンプルの品質とリコールと、分布カバレッジとが一致する。この精度-リコールトレードオフは、特に、インストラクションチューニングや下流生成など、サンプル品質が多様性を上回るシナリオにおいて有益である。本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。

関連論文リスト

Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。 DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文参考訳（メタデータ） (2025-03-10T17:44:46Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Diffusion Model Conditioning on Gaussian Mixture Model and Negative Gaussian Mixture Gradient [1.9298401192674903]
拡散モデル(DM)は、画像合成などに大きな影響を与える生成モデルの一種である。本稿では,ガウス混合モデル(GMM)を特徴条件として用いた条件付け機構を提案する。本研究では,特徴とクラスに基づく条件付き潜伏分布が著しく異なることを示し,特徴に対する条件付き潜伏分布は,クラスにおける条件付き潜伏分布よりも欠陥世代が少ないことを示した。
論文参考訳（メタデータ） (2024-01-20T16:01:18Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation [12.512147282842175]
本稿では,学生モデルの配布外領域におけるロバスト性を改善するための2つの補完手法について検討する。第一のアプローチは、ターゲットの分布にマッチする未ラベルの例で蒸留を増強する。第2の方法は、目標分布に類似したトレーニングセット内のデータポイントをサンプリングする。
論文参考訳（メタデータ） (2023-05-22T14:37:05Z)
Self-Feature Regularization: Self-Feature Distillation Without Teacher Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文参考訳（メタデータ） (2021-03-12T15:29:00Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。