論文の概要: Rethinking Knowledge Distillation via Cross-Entropy
- arxiv url: http://arxiv.org/abs/2208.10139v1
- Date: Mon, 22 Aug 2022 08:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:36:33.579147
- Title: Rethinking Knowledge Distillation via Cross-Entropy
- Title(参考訳): クロスエントロピーによる知識蒸留の再考
- Authors: Zhendong Yang, Zhe Li, Yuan Gong, Tianke Zhang, Shanshan Lao, Chun
Yuan, Yu Li
- Abstract要約: 我々はKD損失を分解してCE損失との関係を探ろうとする。
CE損失とCE損失と同一形状の余剰損失の組合せとみなすことができる。
MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。
- 参考スコア(独自算出の注目度): 23.46801498161629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) has developed extensively and boosted various
tasks. The classical KD method adds the KD loss to the original cross-entropy
(CE) loss. We try to decompose the KD loss to explore its relation with the CE
loss. Surprisingly, we find it can be regarded as a combination of the CE loss
and an extra loss which has the identical form as the CE loss. However, we
notice the extra loss forces the student's relative probability to learn the
teacher's absolute probability. Moreover, the sum of the two probabilities is
different, making it hard to optimize. To address this issue, we revise the
formulation and propose a distributed loss. In addition, we utilize teachers'
target output as the soft target, proposing the soft loss. Combining the soft
loss and the distributed loss, we propose a new KD loss (NKD). Furthermore, we
smooth students' target output to treat it as the soft target for training
without teachers and propose a teacher-free new KD loss (tf-NKD). Our method
achieves state-of-the-art performance on CIFAR-100 and ImageNet. For example,
with ResNet-34 as the teacher, we boost the ImageNet Top-1 accuracy of ResNet18
from 69.90% to 71.96%. In training without teachers, MobileNet, ResNet-18 and
SwinTransformer-Tiny achieve 70.04%, 70.76%, and 81.48%, which are 0.83%,
0.86%, and 0.30% higher than the baseline, respectively. The code is available
at https://github.com/yzd-v/cls_KD.
- Abstract(参考訳): 知識蒸留(kd)は広く発展し、様々なタスクを加速した。
古典的なKD法は、元のクロスエントロピー(CE)損失にKD損失を加える。
我々はKD損失を分解してCE損失との関係を探ろうとする。
意外なことに、CE損失とCE損失と同じ形態の余剰損失の組合せと見なすことができる。
しかし, 余分な損失が生徒の相対確率を低下させ, 教師の絶対確率を学習させる。
さらに、2つの確率の合計が異なるため、最適化が困難である。
この問題に対処するため,定式化を改訂し,分散損失を提案する。
さらに,教師の目標出力をソフトな目標として活用し,ソフトな損失を提案する。
ソフトロスと分散損失を組み合わせた新しいKD損失(NKD)を提案する。
さらに,学生の目標出力を円滑にし,教師なしの訓練対象として扱い,教師なしの新しいKD損失(tf-NKD)を提案する。
CIFAR-100 と ImageNet の最先端性能を実現する。
例えば、ResNet-34 を教師として、ResNet18 の ImageNet Top-1 の精度を 69.90% から 71.96% に引き上げる。
MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。
コードはhttps://github.com/yzd-v/cls_kdで入手できる。
関連論文リスト
- Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。
我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - From Knowledge Distillation to Self-Knowledge Distillation: A Unified
Approach with Normalized Loss and Customized Soft Labels [23.58665464454112]
自己知識蒸留(Self-Knowledge Distillation, KD)は、教師の予測ロジットをソフトラベルとして使用して生徒を指導する。
Universal Self-Knowledge Distillation (USKD)は、教師がいないターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
論文 参考訳(メタデータ) (2023-03-23T02:59:36Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。