論文の概要: DynamicKD: An Effective Knowledge Distillation via Dynamic Entropy
Correction-Based Distillation for Gap Optimizing
- arxiv url: http://arxiv.org/abs/2305.05233v1
- Date: Tue, 9 May 2023 07:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:37:47.737015
- Title: DynamicKD: An Effective Knowledge Distillation via Dynamic Entropy
Correction-Based Distillation for Gap Optimizing
- Title(参考訳): DynamicKD: ギャップ最適化のための動的エントロピー補正に基づく効果的な知識蒸留
- Authors: Songling Zhu, Ronghua Shang, Bo Yuan, Weitong Zhang, Yangyang Li,
Licheng Jiao
- Abstract要約: 本稿では,教師の代わりに生徒を調整してギャップを減らすために,ダイナミックエントロピー補正に基づく知識蒸留アルゴリズムを提案する。
提案アルゴリズムは従来の蒸留アルゴリズムより2.64ポイント,最先端アルゴリズムであるCRDより0.87ポイント,分類精度は0。
- 参考スコア(独自算出の注目度): 41.689535044529194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The knowledge distillation uses a high-performance teacher network to guide
the student network. However, the performance gap between the teacher and
student networks can affect the student's training. This paper proposes a novel
knowledge distillation algorithm based on dynamic entropy correction to reduce
the gap by adjusting the student instead of the teacher. Firstly, the effect of
changing the output entropy (short for output information entropy) in the
student on the distillation loss is analyzed in theory. This paper shows that
correcting the output entropy can reduce the gap. Then, a knowledge
distillation algorithm based on dynamic entropy correction is created, which
can correct the output entropy in real-time with an entropy controller updated
dynamically by the distillation loss. The proposed algorithm is validated on
the CIFAR100 and ImageNet. The comparison with various state-of-the-art
distillation algorithms shows impressive results, especially in the experiment
on the CIFAR100 regarding teacher-student pair resnet32x4-resnet8x4. The
proposed algorithm raises 2.64 points over the traditional distillation
algorithm and 0.87 points over the state-of-the-art algorithm CRD in
classification accuracy, demonstrating its effectiveness and efficiency.
- Abstract(参考訳): 知識蒸留はハイパフォーマンスな教師ネットワークを用いて学生ネットワークを指導する。
しかし、教師と生徒のネットワーク間のパフォーマンスギャップは、学生のトレーニングに影響を及ぼす可能性がある。
本稿では,教師の代わりに生徒を調整してギャップを減らすために,ダイナミックエントロピー補正に基づく新しい知識蒸留アルゴリズムを提案する。
まず, 学生における出力エントロピー(出力情報エントロピーのショート)の変化が蒸留損失に与える影響を理論的に分析した。
本稿では,出力エントロピーの補正によりギャップを低減できることを示す。
そして、ダイナミックエントロピー補正に基づく知識蒸留アルゴリズムを作成し、蒸留損失によって動的に更新されるエントロピーコントローラを用いて、出力エントロピーをリアルタイムで補正する。
提案アルゴリズムはCIFAR100とImageNetで検証される。
CIFAR100では,教師と学生のペアであるresnet32x4-resnet8x4に関する実験を行った。
提案アルゴリズムは,従来の蒸留アルゴリズムよりも2.64ポイント,最先端アルゴリズムであるCRDよりも0.87ポイント,その有効性と効率性を示す。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Education distillation:getting student models to learn in shcools [15.473668050280304]
本稿では,知識蒸留における動的漸進学習を紹介する。
完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
論文 参考訳(メタデータ) (2023-11-23T05:20:18Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。