論文の概要: On the Generalization vs Fidelity Paradox in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2505.15442v1
- Date: Wed, 21 May 2025 12:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.631322
- Title: On the Generalization vs Fidelity Paradox in Knowledge Distillation
- Title(参考訳): 知識蒸留における一般化対忠実パラドックスについて
- Authors: Suhas Kamasetty Ramesh, Ayan Sengupta, Tanmoy Chakraborty,
- Abstract要約: 知識蒸留(KD)は、大きな言語モデルを小さな言語に圧縮し、性能を保ちながら圧縮する技術である。
0.5B から 7B までの範囲で KD の大規模および統計的解析を行った。
以上の結果から,KD は小型モデルの平均性能を最大10% 向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 20.62274005080048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a key technique for compressing large language models into smaller ones while preserving performance. Despite the recent traction of KD research, its effectiveness for smaller language models (LMs) and the mechanisms driving knowledge transfer remain underexplored. In this work, we present the first large-scale empirical and statistical analysis of KD across models ranging from 0.5B to 7B parameters on 14 complex reasoning tasks in a zero-shot setting. Our findings reveal that KD can improve the average performance of smaller models by up to $10\%$, with a peak task specific gain of $22\%$, while providing only marginal benefits ($\sim 1.3\%$) for larger models. Surprisingly, teacher performance has a minimal impact on student outcomes, while teacher task expertise impacts KD effectiveness. A correlation study indicates that smaller LMs benefit more from KD, whereas larger LMs show diminished gains. Additionally, we uncover a misalignment between improvements in student performance and reasoning fidelity, suggesting that while KD enhances accuracy, it does not always maintain the structured decision-making processes of the teacher. Our ablation study further highlights the importance of teacher signals and logit smoothing in influencing students' performance after distillation. Overall, our study offers a comprehensive empirical and statistical assessment of KD, highlighting both its benefits and trade-offs when distilling knowledge from larger to smaller LMs.
- Abstract(参考訳): 知識蒸留(KD)は、大きな言語モデルを小さな言語に圧縮し、性能を保ちながら圧縮する鍵となる技術である。
近年のKD研究の牽引にもかかわらず、より小さな言語モデル(LM)の有効性と知識伝達を駆動するメカニズムは未解明のままである。
本研究では, ゼロショット環境での14の複雑な推論タスクにおいて, 0.5B から 7B までの範囲で KD の大規模かつ統計的解析を行った。
以上の結果から,KDは小モデルの平均性能を最大10 %$で改善し,ピーク時のタスク比利得が22 %$となるとともに,大モデルに対する限界利得のみ(大モデルに対して1 .3 %$)を提供することがわかった。
驚くべきことに、教師のパフォーマンスは学生の成績に最小限の影響を与える一方、教師のタスクの専門知識はKDの有効性に影響を及ぼす。
相関研究により、より小さいLMはKDの恩恵を受ける一方、より大きなLMは利得を低下させることが示された。
さらに,KDの精度は向上するが,教師の構造的意思決定過程を常に維持するとは限らないことを示唆する。
本研究は, 蒸留後の生徒の成績に及ぼす教師信号とロジット平滑化の重要性をさらに強調するものである。
全体として,本研究はKDの総合的な経験的,統計的評価を提供し,大規模から小規模のLMから知識を蒸留する際の利益とトレードオフの両方を強調した。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。