論文の概要: Collaborative Multi-Teacher Knowledge Distillation for Learning Low
Bit-width Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2210.16103v1
- Date: Thu, 27 Oct 2022 01:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:34:23.385569
- Title: Collaborative Multi-Teacher Knowledge Distillation for Learning Low
Bit-width Deep Neural Networks
- Title(参考訳): 低ビット幅深層ニューラルネットワーク学習のための協調的多教師知識蒸留
- Authors: Cuong Pham, Tuan Hoang, Thanh-Toan Do
- Abstract要約: マルチ教師による知識蒸留とネットワーク量子化を併用した,低ビット幅DNN学習のための新しいフレームワークを提案する。
CIFAR100 と ImageNet のデータセットを用いた実験結果から,本手法で訓練した小型量子化学生モデルによる競争結果が得られた。
- 参考スコア(独自算出の注目度): 28.215073725175728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation which learns a lightweight student model by distilling
knowledge from a cumbersome teacher model is an attractive approach for
learning compact deep neural networks (DNNs). Recent works further improve
student network performance by leveraging multiple teacher networks. However,
most of the existing knowledge distillation-based multi-teacher methods use
separately pretrained teachers. This limits the collaborative learning between
teachers and the mutual learning between teachers and student. Network
quantization is another attractive approach for learning compact DNNs. However,
most existing network quantization methods are developed and evaluated without
considering multi-teacher support to enhance the performance of quantized
student model. In this paper, we propose a novel framework that leverages both
multi-teacher knowledge distillation and network quantization for learning low
bit-width DNNs. The proposed method encourages both collaborative learning
between quantized teachers and mutual learning between quantized teachers and
quantized student. During learning process, at corresponding layers, knowledge
from teachers will form an importance-aware shared knowledge which will be used
as input for teachers at subsequent layers and also be used to guide student.
Our experimental results on CIFAR100 and ImageNet datasets show that the
compact quantized student models trained with our method achieve competitive
results compared to other state-of-the-art methods, and in some cases, indeed
surpass the full precision models.
- Abstract(参考訳): 複雑な教師モデルから知識を抽出することで軽量な学生モデルを学ぶ知識蒸留は、コンパクトなディープニューラルネットワーク(DNN)を学ぶための魅力的なアプローチである。
近年の課題は、複数の教師ネットワークを活用することにより、学生ネットワークの性能向上である。
しかし、既存の知識蒸留ベースのマルチ教師法は、ほとんどが個別に訓練済みの教師を使っている。
これにより、教師間の協調学習と教師と生徒間の相互学習が制限される。
ネットワーク量子化は、コンパクトDNNを学ぶための別の魅力的なアプローチである。
しかし、既存のネットワーク量子化手法の多くは、量子化学生モデルの性能を高めるためのマルチ教師サポートを考慮せずに開発・評価されている。
本稿では,低ビット幅DNNの学習にマルチ教師による知識蒸留とネットワーク量子化を併用した新しいフレームワークを提案する。
提案手法は,量子化教師間の協調学習と,量子化教師と量子化学生間の相互学習を促進させる。
学習過程の過程では,教師の知識が重要視される共有知識を形成し,その後の階層における教師のインプットや,生徒の指導に使用される。
CIFAR100およびImageNetデータセットを用いた実験結果から,本手法で訓練した小型の量子化学生モデルは,他の最先端手法と比較して競争力のある結果が得られることが示された。
関連論文リスト
- Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning [16.293262022872412]
適応型多教師知識蒸留とメタラーニング(MMKD)を提案する。
メタウェイトネットワークの助けを借りて、出力層と中間層における多様な教師の知識を活用し、生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-06-11T09:38:45Z) - Knowledge Distillation via Weighted Ensemble of Teaching Assistants [18.593268785143426]
知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-23T22:50:05Z) - Multi-Modality Distillation via Learning the teacher's modality-level
Gram Matrix [3.4793807018498555]
教員ネットワークのモダリティ関係情報を学生ネットワークに学習させる必要がある。
教師から生徒への知識の伝達を効果的に活用するために、異なるモダリティ間の関係情報をモデル化して、新しいモダリティ関係蒸留パラダイムを採用する。
論文 参考訳(メタデータ) (2021-12-21T18:53:58Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Peer Collaborative Learning for Online Knowledge Distillation [69.29602103582782]
Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
論文 参考訳(メタデータ) (2020-06-07T13:21:52Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。