論文の概要: Decoupled Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2203.08679v1
- Date: Wed, 16 Mar 2022 15:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 17:50:22.854139
- Title: Decoupled Knowledge Distillation
- Title(参考訳): 脱カップリング知識蒸留
- Authors: Borui Zhao, Quan Cui, Renjie Song, Yiyu Qiu, Jiajun Liang
- Abstract要約: 我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
- 参考スコア(独自算出の注目度): 7.049113958508325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art distillation methods are mainly based on distilling deep
features from intermediate layers, while the significance of logit distillation
is greatly overlooked. To provide a novel viewpoint to study logit
distillation, we reformulate the classical KD loss into two parts, i.e., target
class knowledge distillation (TCKD) and non-target class knowledge distillation
(NCKD). We empirically investigate and prove the effects of the two parts: TCKD
transfers knowledge concerning the "difficulty" of training samples, while NCKD
is the prominent reason why logit distillation works. More importantly, we
reveal that the classical KD loss is a coupled formulation, which (1)
suppresses the effectiveness of NCKD and (2) limits the flexibility to balance
these two parts. To address these issues, we present Decoupled Knowledge
Distillation (DKD), enabling TCKD and NCKD to play their roles more efficiently
and flexibly. Compared with complex feature-based methods, our DKD achieves
comparable or even better results and has better training efficiency on
CIFAR-100, ImageNet, and MS-COCO datasets for image classification and object
detection tasks. This paper proves the great potential of logit distillation,
and we hope it will be helpful for future research. The code is available at
https://github.com/megvii-research/mdistiller.
- Abstract(参考訳): 最先端の蒸留法は主に中間層からの深層蒸留に基づいているが、ロジット蒸留の意義は見過ごされている。
ロジット蒸留研究の新しい視点として、古典的kd損失を2つの部分、すなわち、目標クラス知識蒸留(tckd)と非目標クラス知識蒸留(nckd)に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
さらに,古典的KD損失は結合定式化であり,(1)NCKDの有効性を抑制し,(2)これらの2つの部分のバランスをとる柔軟性を制限する。
これらの問題に対処するために,tckd と nckd がより効率的かつ柔軟に役割を果たすことができるdkd (decoupled knowledge distillation) を提案する。
複雑な機能ベース手法と比較すると,dkdはcifar-100,imagenet,ms-cocoデータセットにおける画像分類やオブジェクト検出のトレーニング効率が向上する。
本稿では,ロジット蒸留の可能性を示すとともに,今後の研究に役立つことを期待する。
コードはhttps://github.com/megvii-research/mdistillerで入手できる。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Spot-adaptive Knowledge Distillation [39.23627955442595]
我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。
SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。
SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
論文 参考訳(メタデータ) (2022-05-05T02:21:32Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。