論文の概要: Densely Guided Knowledge Distillation using Multiple Teacher Assistants
- arxiv url: http://arxiv.org/abs/2009.08825v3
- Date: Mon, 9 Aug 2021 05:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:17:06.777857
- Title: Densely Guided Knowledge Distillation using Multiple Teacher Assistants
- Title(参考訳): 複数の教師支援者を用いた厳密な知識蒸留
- Authors: Wonchul Son and Jaemin Na and Junyong Choi and Wonjun Hwang
- Abstract要約: モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
- 参考スコア(独自算出の注目度): 5.169724825219126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of deep neural networks, knowledge distillation which guides
the learning of a small student network from a large teacher network is being
actively studied for model compression and transfer learning. However, few
studies have been performed to resolve the poor learning issue of the student
network when the student and teacher model sizes significantly differ. In this
paper, we propose a densely guided knowledge distillation using multiple
teacher assistants that gradually decreases the model size to efficiently
bridge the large gap between the teacher and student networks. To stimulate
more efficient learning of the student network, we guide each teacher assistant
to every other smaller teacher assistants iteratively. Specifically, when
teaching a smaller teacher assistant at the next step, the existing larger
teacher assistants from the previous step are used as well as the teacher
network. Moreover, we design stochastic teaching where, for each mini-batch, a
teacher or teacher assistants are randomly dropped. This acts as a regularizer
to improve the efficiency of teaching of the student network. Thus, the student
can always learn salient distilled knowledge from the multiple sources. We
verified the effectiveness of the proposed method for a classification task
using CIFAR-10, CIFAR-100, and ImageNet. We also achieved significant
performance improvements with various backbone architectures such as ResNet,
WideResNet, and VGG.
- Abstract(参考訳): ディープニューラルネットワークの成功により,大規模教師ネットワークから小学生ネットワークの学習を導く知識蒸留が,モデル圧縮と伝達学習のために積極的に研究されている。
しかし,生徒と教師のモデルサイズが著しく異なる場合,学生ネットワークの学習不足問題を解決するための研究は行われていない。
本稿では,教師と学生のネットワーク間の大きなギャップを効率的に埋めるため,モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留手法を提案する。
生徒ネットワークのより効率的な学習を促進するために,各教員アシスタントを他の教師アシスタントに反復的に指導する。
具体的には、次のステップでより小さな教師アシスタントを教える際には、前ステップから既存のより大きな教師アシスタントと教師ネットワークが使用される。
また,各ミニバッチに対して,教師や教師助手がランダムに欠落する確率的指導をデザインする。
これは、学生ネットワークの指導効率を向上させるための正規化として機能する。
したがって、学生は複数の情報源から常に有能な蒸留知識を学ぶことができる。
CIFAR-10, CIFAR-100, ImageNet を用いた分類課題に対する提案手法の有効性を検証した。
また、ResNet、WideResNet、VGGといったバックボーンアーキテクチャで大幅なパフォーマンス向上を実現しました。
関連論文リスト
- Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-06-12T08:51:08Z) - Knowledge Distillation via Weighted Ensemble of Teaching Assistants [18.593268785143426]
知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-23T22:50:05Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - ORC: Network Group-based Knowledge Distillation using Online Role Change [3.735965959270874]
複数の教師による知識蒸留におけるオンラインの役割変化戦略を提案する。
学生グループの上位ネットワークは、各イテレーションで教師グループに昇格することができる。
CIFAR-10, CIFAR-100, ImageNetにおける提案手法の優位性を検証した。
論文 参考訳(メタデータ) (2022-06-01T10:28:18Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。