論文の概要: Adaptive Multi-Teacher Multi-level Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.04062v1
- Date: Sat, 6 Mar 2021 08:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 02:53:44.844893
- Title: Adaptive Multi-Teacher Multi-level Knowledge Distillation
- Title(参考訳): 適応型マルチティーチャーマルチレベル知識蒸留
- Authors: Yuang Liu, Wei Zhang, Jun Wang
- Abstract要約: 適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
- 参考スコア(独自算出の注目度): 11.722728148523366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation~(KD) is an effective learning paradigm for improving
the performance of lightweight student networks by utilizing additional
supervision knowledge distilled from teacher networks. Most pioneering studies
either learn from only a single teacher in their distillation learning methods,
neglecting the potential that a student can learn from multiple teachers
simultaneously, or simply treat each teacher to be equally important, unable to
reveal the different importance of teachers for specific examples. To bridge
this gap, we propose a novel adaptive multi-teacher multi-level knowledge
distillation learning framework~(AMTML-KD), which consists two novel insights:
(i) associating each teacher with a latent representation to adaptively learn
instance-level teacher importance weights which are leveraged for acquiring
integrated soft-targets~(high-level knowledge) and (ii) enabling the
intermediate-level hints~(intermediate-level knowledge) to be gathered from
multiple teachers by the proposed multi-group hint strategy. As such, a student
model can learn multi-level knowledge from multiple teachers through AMTML-KD.
Extensive results on publicly available datasets demonstrate the proposed
learning framework ensures student to achieve improved performance than strong
competitors.
- Abstract(参考訳): 知識蒸留〜(KD)は,教師ネットワークから抽出した追加の指導知識を活用することで,軽量な学生ネットワークの性能向上のための効果的な学習パラダイムである。
ほとんどの先駆的な研究は、蒸留学習法で1人の教師だけから学び、学生が複数の教師から同時に学ぶ可能性を無視するか、または単に各教師を等しく重要と扱い、特定の例に対する教師の異なる重要性を明らかにすることができません。
To bridge this gap, we propose a novel adaptive multi-teacher multi-level knowledge distillation learning framework~(AMTML-KD), which consists two novel insights: (i) associating each teacher with a latent representation to adaptively learn instance-level teacher importance weights which are leveraged for acquiring integrated soft-targets~(high-level knowledge) and (ii) enabling the intermediate-level hints~(intermediate-level knowledge) to be gathered from multiple teachers by the proposed multi-group hint strategy.
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
公開データセットに関する広範な結果は、提案された学習フレームワークが学生が強力な競合他社よりもパフォーマンスを向上させることを保証します。
関連論文リスト
- Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning [16.293262022872412]
適応型多教師知識蒸留とメタラーニング(MMKD)を提案する。
メタウェイトネットワークの助けを借りて、出力層と中間層における多様な教師の知識を活用し、生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-06-11T09:38:45Z) - Collaborative Multi-Teacher Knowledge Distillation for Learning Low
Bit-width Deep Neural Networks [28.215073725175728]
マルチ教師による知識蒸留とネットワーク量子化を併用した,低ビット幅DNN学習のための新しいフレームワークを提案する。
CIFAR100 と ImageNet のデータセットを用いた実験結果から,本手法で訓練した小型量子化学生モデルによる競争結果が得られた。
論文 参考訳(メタデータ) (2022-10-27T01:03:39Z) - Automated Graph Self-supervised Learning via Multi-teacher Knowledge
Distillation [43.903582264697974]
本稿では,各ノードのインスタンスレベルの自己教師型学習戦略を自動的に,適応的に,動的に学習する方法について検討する。
自動グラフ自己監視学習(AGSSL)のための新しい多教師知識蒸留フレームワークを提案する。
8つのデータセットの実験では、AGSSLは複数のプレテキストタスクの恩恵を受けることができ、対応する個々のタスクを上回っている。
論文 参考訳(メタデータ) (2022-10-05T08:39:13Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Confidence-Aware Multi-Teacher Knowledge Distillation [12.938478021855245]
そこで本研究では,教師の予測に対して,基本トラスラベルの助けを借りて,サンプルの信頼性を適応的に割り当てる,信頼性に配慮した多教師知識蒸留(CA-MKD)を提案する。
私たちのCA-MKDは、様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2021-12-30T11:00:49Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Peer Collaborative Learning for Online Knowledge Distillation [69.29602103582782]
Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
論文 参考訳(メタデータ) (2020-06-07T13:21:52Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。