論文の概要: Multi-level Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2012.00573v1
- Date: Tue, 1 Dec 2020 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 03:10:00.510608
- Title: Multi-level Knowledge Distillation
- Title(参考訳): 多段階知識蒸留
- Authors: Fei Ding, Feng Luo, Hongxin Hu, Yin Yang
- Abstract要約: 教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.71183256776644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation has become an important technique for model
compression and acceleration. The conventional knowledge distillation
approaches aim to transfer knowledge from teacher to student networks by
minimizing the KL-divergence between their probabilistic outputs, which only
consider the mutual relationship between individual representations of teacher
and student networks. Recently, the contrastive loss-based knowledge
distillation is proposed to enable a student to learn the instance
discriminative knowledge of a teacher by mapping the same image close and
different images far away in the representation space. However, all of these
methods ignore that the teacher's knowledge is multi-level, e.g., individual,
relational and categorical level. These different levels of knowledge cannot be
effectively captured by only one kind of supervisory signal. Here, we introduce
Multi-level Knowledge Distillation (MLKD) to transfer richer representational
knowledge from teacher to student networks. MLKD employs three novel
teacher-student similarities: individual similarity, relational similarity, and
categorical similarity, to encourage the student network to learn sample-wise,
structure-wise and category-wise knowledge in the teacher network. Experiments
demonstrate that MLKD outperforms other state-of-the-art methods on both
similar-architecture and cross-architecture tasks. We further show that MLKD
can improve the transferability of learned representations in the student
network.
- Abstract(参考訳): 知識蒸留はモデル圧縮と加速において重要な技術となっている。
従来の知識蒸留手法は,教師と学生のネットワーク表現の相互関係を考慮し,確率的出力間のKL分割を最小化し,教師から学生ネットワークへ知識を伝達することを目的としている。
近年, 教師のインスタンス識別知識を, 同じ画像と異なる画像とを表現空間から遠ざかってマッピングすることで, 教師のインスタンス識別知識を学習できるようにするために, 比較的損失に基づく知識蒸留法が提案されている。
しかし、これらの手法はすべて、教師の知識が多レベルであることを無視している。
これらの異なるレベルの知識は、1種類の監視信号だけで効果的に取得できない。
本稿では,教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは,教師ネットワークにおいて,個人的類似性,関係的類似性,カテゴリー的類似性という3つの新しい教師・学生の類似性を用いて,教師ネットワークにおけるサンプル・ワイド・構造的・カテゴリー的知識の学習を促す。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
さらに,学生ネットワークにおける学習表現の転送性の向上が期待できることを示した。
関連論文リスト
- Leveraging Different Learning Styles for Improved Knowledge Distillation
in Biomedical Imaging [0.9208007322096533]
我々の研究は知識多様化の概念を活用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。
我々は,教師から学生(KD)への知識伝達を可能にすると同時に,学生(ML)間の協調学習を促進する統一的な枠組みで,一教師と二学生のネットワークを利用する。
教師が学生ネットワークと予測や特徴表現の形で同じ知識を共有する従来の手法とは異なり,提案手法では,教師の予測と特徴マップの学習により,より多様化した戦略を採用する。
論文 参考訳(メタデータ) (2022-12-06T12:40:45Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。