論文の概要: Distilling Knowledge via Intermediate Classifier Heads
- arxiv url: http://arxiv.org/abs/2103.00497v1
- Date: Sun, 28 Feb 2021 12:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:31:09.280072
- Title: Distilling Knowledge via Intermediate Classifier Heads
- Title(参考訳): 中間分類器ヘッドによる蒸留知識
- Authors: Aryan Asadian, Amirali Salehi-Abari
- Abstract要約: 知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 0.5584060970507505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The crux of knowledge distillation -- as a transfer-learning approach -- is
to effectively train a resource-limited student model with the guide of a
pre-trained larger teacher model. However, when there is a large difference
between the model complexities of teacher and student (i.e., capacity gap),
knowledge distillation loses its strength in transferring knowledge from the
teacher to the student, thus training a weaker student. To mitigate the impact
of the capacity gap, we introduce knowledge distillation via intermediate
heads. By extending the intermediate layers of the teacher (at various depths)
with classifier heads, we cheaply acquire a cohort of heterogeneous pre-trained
teachers. The intermediate classifier heads can all together be efficiently
learned while freezing the backbone of the pre-trained teacher. The cohort of
teachers (including the original teacher) co-teach the student simultaneously.
Our experiments on various teacher-student pairs and datasets have demonstrated
that the proposed approach outperforms the canonical knowledge distillation
approach and its extensions.
- Abstract(参考訳): トランスファーラーニングアプローチとしての知識蒸留の要点は、事前訓練されたより大きな教師モデルのガイドでリソース限定の学生モデルを効果的に訓練することである。
しかし、教師と生徒のモデルの複雑さ(すなわち能力格差)に大きな違いがある場合、知識蒸留は教師から生徒への知識の伝達においてその強さを失い、より弱い生徒の訓練を行う。
キャパシティギャップの影響を軽減するため,中間ヘッドによる知識蒸留を導入する。
教師の中間層(様々な深さ)を分類器ヘッドで拡張することにより、異種事前学習教師のコホートを安価に取得する。
中間分類器ヘッドは、予め訓練された教師の背骨を凍結しながら効率よく学習することができる。
教師のコーホート(元教師を含む)は同時に生徒を指導する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法とその拡張法より優れていることを示した。
関連論文リスト
- Student-Oriented Teacher Knowledge Refinement for Knowledge Distillation [11.754014876977422]
本報告では,学生のニーズに合うように教師の知識を改良し,学生を意識した視点を新たに導入する。
本稿では,訓練中に学習可能な機能拡張戦略を取り入れた学生指向知識蒸留(SoKD)について紹介する。
また,教師と学生の相互関心領域を特定するために,DAM(Distinctive Area Detection Module)をデプロイした。
論文 参考訳(メタデータ) (2024-09-27T14:34:08Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Student Network Learning via Evolutionary Knowledge Distillation [22.030934154498205]
教師知識の伝達効率を改善するための進化的知識蒸留手法を提案する。
進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。
このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。
論文 参考訳(メタデータ) (2021-03-23T02:07:15Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。