論文の概要: Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2105.08919v1
- Date: Wed, 19 May 2021 04:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:59:23.959157
- Title: Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation
- Title(参考訳): Kullback-Leiblerの多様性と平均二乗誤差の知識蒸留における比較
- Authors: Taehyeon Kim, Jaehoon Oh, NakYil Kim, Sangwook Cho, Se-Young Yun
- Abstract要約: 知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
- 参考スコア(独自算出の注目度): 9.157410884444312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD), transferring knowledge from a cumbersome teacher
model to a lightweight student model, has been investigated to design efficient
neural architectures. Generally, the objective function of KD is the
Kullback-Leibler (KL) divergence loss between the softened probability
distributions of the teacher model and the student model with the temperature
scaling hyperparameter tau. Despite its widespread use, few studies have
discussed the influence of such softening on generalization. Here, we
theoretically show that the KL divergence loss focuses on the logit matching
when tau increases and the label matching when tau goes to 0 and empirically
show that the logit matching is positively correlated to performance
improvement in general. From this observation, we consider an intuitive KD loss
function, the mean squared error (MSE) between the logit vectors, so that the
student model can directly learn the logit of the teacher model. The MSE loss
outperforms the KL divergence loss, explained by the difference in the
penultimate layer representations between the two losses. Furthermore, we show
that sequential distillation can improve performance and that KD, particularly
when using the KL divergence loss with small tau, mitigates the label noise.
The code to reproduce the experiments is publicly available online at
https://github.com/jhoon-oh/kd_data/.
- Abstract(参考訳): 難解な教師モデルから軽量な学生モデルに知識を移す知識蒸留(kd)は、効率的な神経アーキテクチャを設計するために研究されている。
一般に、kd の目的関数は、教師モデルの軟化確率分布と、温度スケーリングハイパーパラメータ tau を用いた生徒モデルとの間のkullback-leibler (kl) 分岐損失である。
広く使われているにもかかわらず、そのような軟化が一般化に与える影響を論じる研究はほとんどない。
ここでは,KL分散損失は,タウ増加時のロジットマッチングと,タウ0のラベルマッチングに着目し,ロジットマッチングが一般に性能改善と正の相関があることを実証的に示す。
そこで本研究では,教師モデルのロジットを直接学習できるように,ロジットベクトル間の平均二乗誤差(MSE)である直感的なKD損失関数を考察する。
mse損失はkl分岐損失よりも優れており、この2つの損失間のペナルティメート層表現の違いが説明されている。
また,kl分岐損失を小さいtauで使用する場合,ラベルノイズを低減させるため,連続蒸留により性能が向上し,特にkdが向上することを示した。
実験を再現するコードはhttps://github.com/jhoon-oh/kd_data/で公開されている。
関連論文リスト
- Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Kendall's $τ$ Coefficient for Logits Distillation [33.77389987117822]
ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。
我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:21:02Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Causal KL: Evaluating Causal Discovery [0.0]
人工データを用いて因果モデル発見を評価するための最も一般的な基準は、編集距離とクルバック・リーブラー分岐である。
どちらも、偽モデルの相対的なメリットを判断する上で、十分に差別化されていないと論じる。
本稿では、観測等価モデル間の因果関係を考慮に入れた拡張KL発散法を提案する。
論文 参考訳(メタデータ) (2021-11-11T02:46:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。