論文の概要: Class Attention Transfer Based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2304.12777v1
- Date: Tue, 25 Apr 2023 12:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:43:46.026435
- Title: Class Attention Transfer Based Knowledge Distillation
- Title(参考訳): クラス注意伝達に基づく知識蒸留
- Authors: Ziyao Guo, Haonan Yan, Hui Li, Xiaodong Lin
- Abstract要約: 本稿では,クラス注目伝達に基づく知識蒸留(CAT-KD)手法を提案する。
高い解釈性を持つ一方で、CAT-KDは複数のベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 7.270713181658108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous knowledge distillation methods have shown their impressive
performance on model compression tasks, however, it is hard to explain how the
knowledge they transferred helps to improve the performance of the student
network. In this work, we focus on proposing a knowledge distillation method
that has both high interpretability and competitive performance. We first
revisit the structure of mainstream CNN models and reveal that possessing the
capacity of identifying class discriminative regions of input is critical for
CNN to perform classification. Furthermore, we demonstrate that this capacity
can be obtained and enhanced by transferring class activation maps. Based on
our findings, we propose class attention transfer based knowledge distillation
(CAT-KD). Different from previous KD methods, we explore and present several
properties of the knowledge transferred by our method, which not only improve
the interpretability of CAT-KD but also contribute to a better understanding of
CNN. While having high interpretability, CAT-KD achieves state-of-the-art
performance on multiple benchmarks. Code is available at:
https://github.com/GzyAftermath/CAT-KD.
- Abstract(参考訳): 従来の知識蒸留法は, モデル圧縮作業において, 優れた性能を示してきたが, 学生ネットワークの性能向上にどのように役立つかを説明することは困難である。
本研究では,高い解釈性と競争性能を有する知識蒸留法を提案する。
まず、主流CNNモデルの構造を再検討し、クラス識別領域を識別する能力を持つことがCNNにとって重要であることを明らかにした。
さらに,クラスアクティベーションマップの転送により,この能力の獲得と向上が可能であることを示す。
そこで本研究では,cat-kd(class attention transfer based knowledge distillation)を提案する。
従来のKD法とは違って,CAT-KDの解釈性の向上だけでなく,CNNの理解の向上にも寄与する知識のいくつかの特性を探索し,提示する。
高い解釈性を持つ一方で、CAT-KDは複数のベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/gzyaftermath/cat-kd。
関連論文リスト
- Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification [0.0]
ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
知識蒸留(KD)への以前のアプローチは、CNNの教師からViTの学生へのロジット分布の蒸留に焦点を絞った2つの主要な経路を追求してきた。
本稿では,CNN教師とハイブリッド学生を併用したHybrid Data- efficient Knowledge Distillation(HDKD)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:09:12Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Knowledge Transfer via Dense Cross-Layer Mutual-Distillation [24.24969126783315]
教師と学生のネットワークをゼロから協調的に訓練するDense Cross-layer Mutual-distillation (DCM)を提案する。
KT性能を高めるために,付加型分類器を用いた層間双方向KD操作を導入する。
提案手法は様々なKTタスクでテストし,関連する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:25:08Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。