論文の概要: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.08139v1
- Date: Wed, 11 Dec 2024 06:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:20.604969
- Title: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation
- Title(参考訳): Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation
- Authors: Jiaming Lv, Haoyuan Yang, Peihua Li,
- Abstract要約: Kullback-Leibler Divergence (KL-Div) に基づく知識蒸留が主流である。
本稿では,Wasserstein Distanceを用いた知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 8.157600274161897
- License:
- Abstract: Since pioneering work of Hinton et al., knowledge distillation based on Kullback-Leibler Divergence (KL-Div) has been predominant, and recently its variants have achieved compelling performance. However, KL-Div only compares probabilities of the corresponding category between the teacher and student while lacking a mechanism for cross-category comparison. Besides, KL-Div is problematic when applied to intermediate layers, as it cannot handle non-overlapping distributions and is unaware of geometry of the underlying manifold. To address these downsides, we propose a methodology of Wasserstein Distance (WD) based knowledge distillation. Specifically, we propose a logit distillation method called WKD-L based on discrete WD, which performs cross-category comparison of probabilities and thus can explicitly leverage rich interrelations among categories. Moreover, we introduce a feature distillation method called WKD-F, which uses a parametric method for modeling feature distributions and adopts continuous WD for transferring knowledge from intermediate layers. Comprehensive evaluations on image classification and object detection have shown (1) for logit distillation WKD-L outperforms very strong KL-Div variants; (2) for feature distillation WKD-F is superior to the KL-Div counterparts and state-of-the-art competitors. The source code is available at https://peihuali.org/WKD
- Abstract(参考訳): Hintonらによる先駆的な研究以来、Kulback-Leibler Divergence (KL-Div)に基づく知識蒸留が主流となり、近年はその変種が魅力的なパフォーマンスを実現している。
しかし,KL-Divは,クラス間比較のメカニズムを欠いたまま,教師と生徒の対応するカテゴリの確率を比較できる。
さらに、KL-Div は非重複分布を扱うことができず、基底多様体の幾何学を知らないため、中間層に適用する際に問題となる。
これらの欠点に対処するため,我々はワッサースタイン距離(WD)に基づく知識蒸留手法を提案する。
具体的には、離散的なWDに基づくWKD-Lと呼ばれるロジト蒸留法を提案し、確率のクロスカテゴリ比較を行い、これにより、カテゴリ間の豊富な相互関係を明示的に活用することができる。
さらに,WKD-Fと呼ばれる特徴蒸留法を導入し,特徴分布のモデル化にパラメトリック法を用い,中間層からの知識伝達に連続的なWDを採用する。
画像分類と物体検出に関する総合的な評価は,(1)ロジット蒸留におけるWKD-Lは非常に強力なKL-Div変異体より優れており,(2)特徴蒸留におけるWKD-Fは,KL-Div代替品や最先端の競合製品よりも優れていることを示している。
ソースコードはhttps://peihuali.org/WKDで公開されている。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Bridging Cross-task Protocol Inconsistency for Distillation in Dense
Object Detection [19.07452370081663]
本研究では,高密度物体検出に適したクロスタスク一貫したプロトコルを用いた新しい蒸留法を提案する。
分類蒸留では,教師モデルと学生モデルの両方の分類ロジットマップを複数の二分分類マップとして定式化し,各地図に二分分類蒸留損失を適用した。
提案手法は単純だが有効であり,既存の手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-08-28T03:57:37Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。