論文の概要: Channel Distillation: Channel-Wise Attention for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.01683v1
- Date: Tue, 2 Jun 2020 14:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:37:19.456848
- Title: Channel Distillation: Channel-Wise Attention for Knowledge Distillation
- Title(参考訳): チャンネル蒸留:チャンネル回りの知識蒸留への注意
- Authors: Zaida Zhou, Chaoran Zhuge, Xinwei Guan, Wen Liu
- Abstract要約: 本稿では,2つの蒸留方法と損失崩壊戦略を含む新しい蒸留法を提案する。
まず、チャンネル蒸留(CD)が教師から生徒にチャネル情報を転送する。
第二に、指導的知識蒸留(GKD)は、生徒が教師の正しい出力を模倣することしかできない。
- 参考スコア(独自算出の注目度): 3.6269274596116476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is to transfer the knowledge from the data learned by
the teacher network to the student network, so that the student has the
advantage of less parameters and less calculations, and the accuracy is close
to the teacher. In this paper, we propose a new distillation method, which
contains two transfer distillation strategies and a loss decay strategy. The
first transfer strategy is based on channel-wise attention, called Channel
Distillation (CD). CD transfers the channel information from the teacher to the
student. The second is Guided Knowledge Distillation (GKD). Unlike Knowledge
Distillation (KD), which allows the student to mimic each sample's prediction
distribution of the teacher, GKD only enables the student to mimic the correct
output of the teacher. The last part is Early Decay Teacher (EDT). During the
training process, we gradually decay the weight of the distillation loss. The
purpose is to enable the student to gradually control the optimization rather
than the teacher. Our proposed method is evaluated on ImageNet and CIFAR100. On
ImageNet, we achieve 27.68% of top-1 error with ResNet18, which outperforms
state-of-the-art methods. On CIFAR100, we achieve surprising result that the
student outperforms the teacher. Code is available at
https://github.com/zhouzaida/channel-distillation.
- Abstract(参考訳): 知識蒸留は、教師ネットワークが学習したデータから学生ネットワークへ知識を伝達することであり、生徒はパラメータが少なく、計算も少ないという利点があり、精度は教師に近い。
本稿では, 2 つの転移蒸留戦略と損失減衰戦略を含む新しい蒸留法を提案する。
最初の転移戦略はチャンネル回りの注意に基づくもので、チャンネル蒸留 (cd) と呼ばれる。
CDは、チャンネル情報を教師から生徒に転送する。
2つ目はガイドド・ナレッジ蒸留(GKD)である。
生徒が各サンプルの教師の予測分布を模倣できる知識蒸留(kd)とは異なり、gkdは教師の正しい出力を模倣することしかできない。
最後の部分はEarly Decay Teacher (EDT)である。
トレーニング過程において, 蒸留損失の重量は徐々に減少する。
目的は、生徒が教師よりも徐々に最適化を制御できるようにすることである。
提案手法は ImageNet と CIFAR100 を用いて評価する。
ImageNetでは、ResNet18でトップ1エラーの27.68%を達成しています。
CIFAR100では,学生が教師より優れているという驚くべき結果を得た。
コードはhttps://github.com/zhouzaida/channel-distillationで入手できる。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文 参考訳(メタデータ) (2022-09-27T12:40:29Z) - Student Helping Teacher: Teacher Evolution via Self-Knowledge
Distillation [20.17325172100031]
本稿では,教師が構造的バックボーンを共有することで,複数の階層的な学生の助けを借りて学習する,新しい学生ヘルピング・ティーチンガー式,TESKD(Tell-Helping-Teacher Evolution)を提案する。
提案手法の有効性は,CIFAR-100 と ImageNet の2つの標準ベンチマークにおいて,様々なネットワーク設定による広範な実験により実証された。
論文 参考訳(メタデータ) (2021-10-01T11:46:12Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。