論文の概要: Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2305.05010v1
- Date: Mon, 8 May 2023 19:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:31:42.786374
- Title: Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge
Distillation
- Title(参考訳): 教師を犠牲にしない:知識蒸留における摂動損失の利用
- Authors: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Jialu Liu, Michael Bendersky,
Marc Najork, Chao Zhang
- Abstract要約: 学生は、KLの出力分布と教師の出力分布を最小化することにより、教師の模倣を学ぶ。
教師の出力分布と基底真理ラベル分布との間には相違点があることから,このような学習目標が準最適であると論じる。
そこで我々は,まずバニラKLに基づく蒸留損失関数をマクロリン級数で表現し,次に先行項を摂動することで,新しい知識蒸留目的PTLosを提案する。
- 参考スコア(独自算出の注目度): 37.57793306258625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a popular technique to transfer knowledge from
large teacher models to a small student model. Typically, the student learns to
imitate the teacher by minimizing the KL divergence of its output distribution
with the teacher's output distribution. In this work, we argue that such a
learning objective is sub-optimal because there exists a discrepancy between
the teacher's output distribution and the ground truth label distribution.
Therefore, forcing the student to blindly imitate the unreliable teacher output
distribution leads to inferior performance. To this end, we propose a novel
knowledge distillation objective PTLoss by first representing the vanilla
KL-based distillation loss function via a Maclaurin series and then perturbing
the leading-order terms in this series. This perturbed loss implicitly
transforms the original teacher into a proxy teacher with a distribution closer
to the ground truth distribution. We establish the theoretical connection
between this "distribution closeness" and the student model generalizability,
which enables us to select the PTLoss's perturbation coefficients in a
principled way. Extensive experiments on five datasets demonstrate PTLoss can
significantly improve the distillation effectiveness for teachers of various
scales.
- Abstract(参考訳): 知識蒸留は、大きな教師モデルから小さな学生モデルに知識を伝達する一般的な技術である。
典型的には、教師の出力分布と出力分布のKL分散を最小化することにより、教師を模倣することを学ぶ。
本研究は,教師の出力分布と基底真理ラベル分布との間には不一致があるため,学習目標が最適ではないと主張する。
したがって、信頼できない教師の出力分布を盲目的に模倣させると、成績が低下する。
そこで本研究では,まずバニラKLに基づく蒸留損失関数をマクロリン級数で表現し,次に先行項を摂動することで,新しい知識蒸留対象PTLosを提案する。
この混乱した損失は、元の教師を暗黙的に、真実の分布に近い分布を持つ代理教師に変換する。
この「分配密接性」と学生モデルの一般化可能性との理論的関係を確立することにより,ptlossの摂動係数を原理的に選択することができる。
5つのデータセットに対する大規模な実験により、PTLossは様々なスケールの教師の蒸留効率を大幅に改善できることが示された。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。