論文の概要: Rethinking Knowledge Distillation via Cross-Entropy
- arxiv url: http://arxiv.org/abs/2208.10139v1
- Date: Mon, 22 Aug 2022 08:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:36:33.579147
- Title: Rethinking Knowledge Distillation via Cross-Entropy
- Title(参考訳): クロスエントロピーによる知識蒸留の再考
- Authors: Zhendong Yang, Zhe Li, Yuan Gong, Tianke Zhang, Shanshan Lao, Chun
Yuan, Yu Li
- Abstract要約: 我々はKD損失を分解してCE損失との関係を探ろうとする。
CE損失とCE損失と同一形状の余剰損失の組合せとみなすことができる。
MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。
- 参考スコア(独自算出の注目度): 23.46801498161629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) has developed extensively and boosted various
tasks. The classical KD method adds the KD loss to the original cross-entropy
(CE) loss. We try to decompose the KD loss to explore its relation with the CE
loss. Surprisingly, we find it can be regarded as a combination of the CE loss
and an extra loss which has the identical form as the CE loss. However, we
notice the extra loss forces the student's relative probability to learn the
teacher's absolute probability. Moreover, the sum of the two probabilities is
different, making it hard to optimize. To address this issue, we revise the
formulation and propose a distributed loss. In addition, we utilize teachers'
target output as the soft target, proposing the soft loss. Combining the soft
loss and the distributed loss, we propose a new KD loss (NKD). Furthermore, we
smooth students' target output to treat it as the soft target for training
without teachers and propose a teacher-free new KD loss (tf-NKD). Our method
achieves state-of-the-art performance on CIFAR-100 and ImageNet. For example,
with ResNet-34 as the teacher, we boost the ImageNet Top-1 accuracy of ResNet18
from 69.90% to 71.96%. In training without teachers, MobileNet, ResNet-18 and
SwinTransformer-Tiny achieve 70.04%, 70.76%, and 81.48%, which are 0.83%,
0.86%, and 0.30% higher than the baseline, respectively. The code is available
at https://github.com/yzd-v/cls_KD.
- Abstract(参考訳): 知識蒸留(kd)は広く発展し、様々なタスクを加速した。
古典的なKD法は、元のクロスエントロピー(CE)損失にKD損失を加える。
我々はKD損失を分解してCE損失との関係を探ろうとする。
意外なことに、CE損失とCE損失と同じ形態の余剰損失の組合せと見なすことができる。
しかし, 余分な損失が生徒の相対確率を低下させ, 教師の絶対確率を学習させる。
さらに、2つの確率の合計が異なるため、最適化が困難である。
この問題に対処するため,定式化を改訂し,分散損失を提案する。
さらに,教師の目標出力をソフトな目標として活用し,ソフトな損失を提案する。
ソフトロスと分散損失を組み合わせた新しいKD損失(NKD)を提案する。
さらに,学生の目標出力を円滑にし,教師なしの訓練対象として扱い,教師なしの新しいKD損失(tf-NKD)を提案する。
CIFAR-100 と ImageNet の最先端性能を実現する。
例えば、ResNet-34 を教師として、ResNet18 の ImageNet Top-1 の精度を 69.90% から 71.96% に引き上げる。
MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。
コードはhttps://github.com/yzd-v/cls_kdで入手できる。
関連論文リスト
- Decoupled Kullback-Leibler Divergence Loss [75.31157286595517]
Kullback-Leibler (KL) 分割損失は、DKL (Dupled Kullback-Leibler) 分割損失と同値である。
クラス内整合性正規化のためのグローバル情報をDKLに導入する。
提案手法は両タスクの最先端性能を実現し,実用的メリットを実証する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - From Knowledge Distillation to Self-Knowledge Distillation: A Unified
Approach with Normalized Loss and Customized Soft Labels [23.58665464454112]
自己知識蒸留(Self-Knowledge Distillation, KD)は、教師の予測ロジットをソフトラベルとして使用して生徒を指導する。
Universal Self-Knowledge Distillation (USKD)は、教師がいないターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
論文 参考訳(メタデータ) (2023-03-23T02:59:36Z) - ViTKD: Practical Guidelines for ViT feature knowledge distillation [23.8103504246977]
Vision Transformer (ViT)は多くのコンピュータビジョンタスクで大きな成功を収めた。
学生に一貫性と大幅な改善をもたらす機能ベースのViTKDを提案する。
ImageNet-1kでは、DeiT-Tinyを74.42%から76.06%、DeiT-Smallを80.55%から81.95%、DeiT-Baseを81.76%から83.46%に引き上げます。
論文 参考訳(メタデータ) (2022-09-06T11:52:46Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z) - Channel Distillation: Channel-Wise Attention for Knowledge Distillation [3.6269274596116476]
本稿では,2つの蒸留方法と損失崩壊戦略を含む新しい蒸留法を提案する。
まず、チャンネル蒸留(CD)が教師から生徒にチャネル情報を転送する。
第二に、指導的知識蒸留(GKD)は、生徒が教師の正しい出力を模倣することしかできない。
論文 参考訳(メタデータ) (2020-06-02T14:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。