論文の概要: From Knowledge Distillation to Self-Knowledge Distillation: A Unified
Approach with Normalized Loss and Customized Soft Labels
- arxiv url: http://arxiv.org/abs/2303.13005v1
- Date: Thu, 23 Mar 2023 02:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:50:52.643969
- Title: From Knowledge Distillation to Self-Knowledge Distillation: A Unified
Approach with Normalized Loss and Customized Soft Labels
- Title(参考訳): 知識蒸留から自己知識蒸留へ:正規化損失とカスタマイズソフトラベルを用いた統一的アプローチ
- Authors: Zhendong Yang, Ailing Zeng, Zhe Li, Tianke Zhang, Chun Yuan, Yu Li
- Abstract要約: 自己知識蒸留(Self-Knowledge Distillation, KD)は、教師の予測ロジットをソフトラベルとして使用して生徒を指導する。
Universal Self-Knowledge Distillation (USKD)は、教師がいないターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
- 参考スコア(独自算出の注目度): 23.58665464454112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) uses the teacher's prediction logits as soft
labels to guide the student, while self-KD does not need a real teacher to
require the soft labels. This work unifies the formulations of the two tasks by
decomposing and reorganizing the generic KD loss into a Normalized KD (NKD)
loss and customized soft labels for both target class (image's category) and
non-target classes named Universal Self-Knowledge Distillation (USKD). We
decompose the KD loss and find the non-target loss from it forces the student's
non-target logits to match the teacher's, but the sum of the two non-target
logits is different, preventing them from being identical. NKD normalizes the
non-target logits to equalize their sum. It can be generally used for KD and
self-KD to better use the soft labels for distillation loss. USKD generates
customized soft labels for both target and non-target classes without a
teacher. It smooths the target logit of the student as the soft target label
and uses the rank of the intermediate feature to generate the soft non-target
labels with Zipf's law. For KD with teachers, our NKD achieves state-of-the-art
performance on CIFAR-100 and ImageNet datasets, boosting the ImageNet Top-1
accuracy of ResNet18 from 69.90% to 71.96% with a ResNet-34 teacher. For
self-KD without teachers, USKD is the first self-KD method that can be
effectively applied to both CNN and ViT models with negligible additional time
and memory cost, resulting in new state-of-the-art results, such as 1.17% and
0.55% accuracy gains on ImageNet for MobileNet and DeiT-Tiny, respectively. Our
codes are available at https://github.com/yzd-v/cls_KD.
- Abstract(参考訳): 知識蒸留(KD)は、教師の予測ロジットをソフトラベルとして使用し、セルフKDはソフトラベルを必要とする真の教師を必要としない。
この研究は、汎用的なKD損失を正規化KD(NKD)損失に分解して再編成し、ターゲットクラス(イメージのカテゴリ)とUniversal Self-Knowledge Distillation(USKD)という非ターゲットクラスの両方にカスタマイズしたソフトラベルを組み込むことにより、2つのタスクの定式化を行う。
kdの損失を分解し、その損失から非目標の損失を見つけることで、生徒の非目標のロジットは教師の損失と一致させるが、2つの非目標のロジットの合計が異なるため、同一視できない。
NKDはターゲットでないロジットを正規化して和を等化する。
一般的に、KDとセルフKDは、蒸留損失にソフトラベルをよりよく利用するために用いられる。
USKDは教師なしでターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。
これは学生のターゲットロジットをソフトターゲットラベルとして滑らかにし、中間特徴のランクを使ってzipfの法則でソフトターゲットでないラベルを生成する。
教師のKDでは,CIFAR-100とImageNetデータセットの最先端のパフォーマンスを実現し,ResNet18のImageNet Top-1精度を69.90%から71.96%に向上させた。
教師がいないセルフKDでは、USKDはCNNモデルとViTモデルの両方に、許容しない追加時間とメモリコストで効果的に適用できる最初のセルフKD手法であり、それぞれ1.17%と0.55%の精度でImageNet for MobileNetとDeiT-Tinyの精度が向上した。
私たちのコードはhttps://github.com/yzd-v/cls_kdで利用可能です。
関連論文リスト
- CLIP-KD: An Empirical Study of CLIP Model Distillation [24.52910358842176]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
論文 参考訳(メタデータ) (2023-07-24T12:24:07Z) - CrossKD: Cross-Head Knowledge Distillation for Object Detection [69.16346256926842]
知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる蒸留方式を模倣する予測手法を提案する。
われわれのCrossKDはGFL ResNet-50の平均精度を40.2から43.7に向上させ、既存のKD手法を上回ります。
論文 参考訳(メタデータ) (2023-06-20T08:19:51Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Rethinking Knowledge Distillation via Cross-Entropy [23.46801498161629]
我々はKD損失を分解してCE損失との関係を探ろうとする。
CE損失とCE損失と同一形状の余剰損失の組合せとみなすことができる。
MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。
論文 参考訳(メタデータ) (2022-08-22T08:32:08Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - A Fast Knowledge Distillation Framework for Visual Recognition [17.971973892352864]
Fast Knowledge Distillation (FKD) フレームワークは蒸留訓練フェーズを再現し,マルチクロップKDアプローチを用いてソフトラベルを生成する。
FKDは従来の画像分類フレームワークよりも効率的です。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。