論文の概要: Knowledge Distillation Layer that Lets the Student Decide
- arxiv url: http://arxiv.org/abs/2309.02843v1
- Date: Wed, 6 Sep 2023 09:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:04:07.108529
- Title: Knowledge Distillation Layer that Lets the Student Decide
- Title(参考訳): 学生の判断を下す知識蒸留層
- Authors: Ada Gorgun, Yeti Z. Gurbuz, A. Aydin Alatan
- Abstract要約: 2つの異なる能力でKDを改善する学習可能なKD層を提案する。
一 教師の知識の活用の仕方を学び、ニュアンス情報を破棄し、及び、伝達された知識をより深めていくこと。
- 参考スコア(独自算出の注目度): 6.689381216751284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical technique in knowledge distillation (KD) is regularizing the learning
of a limited capacity model (student) by pushing its responses to match a
powerful model's (teacher). Albeit useful especially in the penultimate layer
and beyond, its action on student's feature transform is rather implicit,
limiting its practice in the intermediate layers. To explicitly embed the
teacher's knowledge in feature transform, we propose a learnable KD layer for
the student which improves KD with two distinct abilities: i) learning how to
leverage the teacher's knowledge, enabling to discard nuisance information, and
ii) feeding forward the transferred knowledge deeper. Thus, the student enjoys
the teacher's knowledge during the inference besides training. Formally, we
repurpose 1x1-BN-ReLU-1x1 convolution block to assign a semantic vector to each
local region according to the template (supervised by the teacher) that the
corresponding region of the student matches. To facilitate template learning in
the intermediate layers, we propose a novel form of supervision based on the
teacher's decisions. Through rigorous experimentation, we demonstrate the
effectiveness of our approach on 3 popular classification benchmarks. Code is
available at: https://github.com/adagorgun/letKD-framework
- Abstract(参考訳): 知識蒸留(KD)の典型的な技術は、限られた能力モデル(学生)の学習を、その応答を強力なモデルの(教師)に合わせることで規則化するものである。
特に垂直層やそれ以上では有用であるが、学生の特徴変換に対する作用はかなり暗黙的であり、中間層での実践を制限している。
教師の知識を特徴変換に明示的に組み込むために,2つの異なる能力でKDを改善する学習可能なKD層を提案する。
一 教師の知識の活用方法を学び、迷惑情報を破棄すること。
二 伝わった知識を更に深めていくこと。
このようにして、生徒は訓練以外の推論中に教師の知識を享受する。
形式的には、1x1-BN-ReLU-1x1畳み込みブロックを再利用して、生徒の対応する領域が一致するテンプレート(教師が監督する)に従って、各局所領域に意味ベクトルを割り当てる。
中間層におけるテンプレート学習を容易にするために,教師の判断に基づく新しい指導形態を提案する。
厳密な実験を通じて,3つの一般的な分類ベンチマークにおけるアプローチの有効性を示す。
コードは、https://github.com/adagorgun/letKD-frameworkで入手できる。
関連論文リスト
- Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Distilling Knowledge by Mimicking Features [32.79431807764681]
我々は,教師の特徴を直感的な層に模倣させる方が,より有利であると主張している。
生徒は教師機能から直接より効果的な情報を学べるだけでなく、ソフトマックス層を使わずに訓練された教師にも機能模倣を適用することができる。
論文 参考訳(メタデータ) (2020-11-03T02:15:14Z) - Knowledge Transfer via Dense Cross-Layer Mutual-Distillation [24.24969126783315]
教師と学生のネットワークをゼロから協調的に訓練するDense Cross-layer Mutual-distillation (DCM)を提案する。
KT性能を高めるために,付加型分類器を用いた層間双方向KD操作を導入する。
提案手法は様々なKTタスクでテストし,関連する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。