論文の概要: Learn From the Past: Experience Ensemble Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2202.12488v1
- Date: Fri, 25 Feb 2022 04:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 23:10:22.151223
- Title: Learn From the Past: Experience Ensemble Knowledge Distillation
- Title(参考訳): 過去から学ぶ:知識蒸留を組み込んだ経験
- Authors: Chaofei Wang, Shaowei Zhang, Shiji Song, Gao Huang
- Abstract要約: 本稿では,教師の知識伝達経験を統合した新しい知識蒸留法を提案する。
教師モデルの学習過程から適度な数の中間モデルを均一に保存し,これらの中間モデルの知識をアンサンブル手法で統合する。
意外な結論は、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らないことである。
- 参考スコア(独自算出の注目度): 34.561007802532224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional knowledge distillation transfers "dark knowledge" of a
pre-trained teacher network to a student network, and ignores the knowledge in
the training process of the teacher, which we call teacher's experience.
However, in realistic educational scenarios, learning experience is often more
important than learning results. In this work, we propose a novel knowledge
distillation method by integrating the teacher's experience for knowledge
transfer, named experience ensemble knowledge distillation (EEKD). We save a
moderate number of intermediate models from the training process of the teacher
model uniformly, and then integrate the knowledge of these intermediate models
by ensemble technique. A self-attention module is used to adaptively assign
weights to different intermediate models in the process of knowledge transfer.
Three principles of constructing EEKD on the quality, weights and number of
intermediate models are explored. A surprising conclusion is found that strong
ensemble teachers do not necessarily produce strong students. The experimental
results on CIFAR-100 and ImageNet show that EEKD outperforms the mainstream
knowledge distillation methods and achieves the state-of-the-art. In
particular, EEKD even surpasses the standard ensemble distillation on the
premise of saving training cost.
- Abstract(参考訳): 従来の知識蒸留は,事前学習した教員ネットワークの「暗黒知識」を学生ネットワークに転送し,教師の経験と呼ぶ教師の訓練過程における知識を無視する。
しかし、現実的な教育シナリオでは、学習経験は、しばしば学習結果よりも重要である。
本研究では,教師の知識伝達経験を統合した新しい知識蒸留法であるexperience ensemble knowledge distillation (eekd)を提案する。
教師モデルの学習過程から適度な数の中間モデルを保存するとともに,これらの中間モデルの知識をアンサンブル手法で統合する。
自己アテンションモジュールは、知識伝達の過程で異なる中間モデルに重みを適応的に割り当てるために使用される。
中間モデルの品質,重み,および数に対するEEKD構築の3つの原則について検討する。
意外な結論として、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らない。
CIFAR-100とImageNetの実験結果は、EEKDが主流の知識蒸留法より優れ、最先端技術を実現していることを示している。
特にEEKDは、トレーニングコストの削減という前提で、標準のアンサンブル蒸留を超越している。
関連論文リスト
- AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。