論文の概要: Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework
- arxiv url: http://arxiv.org/abs/2107.00181v1
- Date: Thu, 1 Jul 2021 02:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 14:03:11.286796
- Title: Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework
- Title(参考訳): 知識蒸留の再検討 : 継承と探究の枠組み
- Authors: Zhen Huang, Xu Shen, Jun Xing, Tongliang Liu, Xinmei Tian, Houqiang
Li, Bing Deng, Jianqiang Huang and Xian-Sheng Hua
- Abstract要約: 知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
- 参考スコア(独自算出の注目度): 153.73692961660964
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge Distillation (KD) is a popular technique to transfer knowledge from
a teacher model or ensemble to a student model. Its success is generally
attributed to the privileged information on similarities/consistency between
the class distributions or intermediate feature representations of the teacher
model and the student model. However, directly pushing the student model to
mimic the probabilities/features of the teacher model to a large extent limits
the student model in learning undiscovered knowledge/features. In this paper,
we propose a novel inheritance and exploration knowledge distillation framework
(IE-KD), in which a student model is split into two parts - inheritance and
exploration. The inheritance part is learned with a similarity loss to transfer
the existing learned knowledge from the teacher model to the student model,
while the exploration part is encouraged to learn representations different
from the inherited ones with a dis-similarity loss. Our IE-KD framework is
generic and can be easily combined with existing distillation or mutual
learning methods for training deep neural networks. Extensive experiments
demonstrate that these two parts can jointly push the student model to learn
more diversified and effective representations, and our IE-KD can be a general
technique to improve the student network to achieve SOTA performance.
Furthermore, by applying our IE-KD to the training of two networks, the
performance of both can be improved w.r.t. deep mutual learning. The code and
models of IE-KD will be make publicly available at
https://github.com/yellowtownhz/IE-KD.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルやアンサンブルから生徒モデルに知識を伝達する一般的な手法である。
その成功は一般的に、教師モデルと学生モデルのクラス分布と中間特徴表現の類似性/一貫性に関する特権情報に起因する。
しかし、教師モデルの確率や特徴を直接的に模倣することで、未発見の知識/特徴を学習する際の生徒モデルを制限することができる。
本稿では,学生モデルを継承と探索の2つの部分に分割した新しい継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
継承部は類似度損失で学習され、既存の学習知識を教師モデルから生徒モデルに転送する一方、調査部は異類似度損失を持つ継承部とは異なる表現を学習することが推奨される。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
広汎な実験により,これらの2つのパートは,より多様化された効果的な表現を学習するために,学生モデルを協調的に推し進めることが実証された。
さらに,2つのネットワークのトレーニングにie-kdを適用することで,両者の性能が向上する。
深い相互学習。
IE-KDのコードとモデルはhttps://github.com/yellowtownhz/IE-KDで公開される。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Leveraging Different Learning Styles for Improved Knowledge Distillation
in Biomedical Imaging [0.9208007322096533]
我々の研究は知識多様化の概念を活用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。
我々は,教師から学生(KD)への知識伝達を可能にすると同時に,学生(ML)間の協調学習を促進する統一的な枠組みで,一教師と二学生のネットワークを利用する。
教師が学生ネットワークと予測や特徴表現の形で同じ知識を共有する従来の手法とは異なり,提案手法では,教師の予測と特徴マップの学習により,より多様化した戦略を採用する。
論文 参考訳(メタデータ) (2022-12-06T12:40:45Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Multi-level Knowledge Distillation [13.71183256776644]
教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-01T15:27:15Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。