論文の概要: Deep Collective Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2304.08878v1
- Date: Tue, 18 Apr 2023 10:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:18:33.885038
- Title: Deep Collective Knowledge Distillation
- Title(参考訳): 深層集合的知識蒸留
- Authors: Jihyeon Seo, Kyusam Oh, Chanho Min, Yongkeun Yun, Sungwoo Cho
- Abstract要約: DCKDと呼ばれるモデル圧縮のための深層集合的知識蒸留法を提案する。
我々のDCKDは,授業間の相関知識を高める方法を検討する。
この単純で強力な手法は、多くの実験で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many existing studies on knowledge distillation have focused on methods in
which a student model mimics a teacher model well.
Simply imitating the teacher's knowledge, however, is not sufficient for the
student to surpass that of the teacher.
We explore a method to harness the knowledge of other students to complement
the knowledge of the teacher.
We propose deep collective knowledge distillation for model compression,
called DCKD, which is a method for training student models with rich
information to acquire knowledge from not only their teacher model but also
other student models.
The knowledge collected from several student models consists of a wealth of
information about the correlation between classes.
Our DCKD considers how to increase the correlation knowledge of classes
during training.
Our novel method enables us to create better performing student models for
collecting knowledge.
This simple yet powerful method achieves state-of-the-art performances in
many experiments.
For example, for ImageNet, ResNet18 trained with DCKD achieves 72.27\%, which
outperforms the pretrained ResNet18 by 2.52\%.
For CIFAR-100, the student model of ShuffleNetV1 with DCKD achieves 6.55\%
higher top-1 accuracy than the pretrained ShuffleNetV1.
- Abstract(参考訳): 知識蒸留に関する既存の多くの研究は、生徒モデルが教師モデルをよく模倣する手法に焦点をあてている。
しかし、教師の知識を模倣するだけでは、生徒が教師の知識を上回るには不十分である。
教員の知識を補完するために,他の生徒の知識を活用する方法を探究する。
本研究では,教師モデルだけでなく,他の生徒モデルからも知識を得るために,リッチな情報を持つ学生モデルを訓練する方法であるdckdというモデル圧縮のための深層集合的知識蒸留法を提案する。
いくつかの学生モデルから得られた知識は、クラス間の相関に関する豊富な情報から成り立っている。
我々のDCKDは,授業間の相関知識を高める方法を検討する。
新たな手法により,より優れた学生モデルの構築が可能となった。
この単純で強力な手法は多くの実験で最先端の性能を達成する。
例えば、ImageNetでは、DCKDでトレーニングされたResNet18が72.27\%を達成する。
CIFAR-100では、ShuffleNetV1とDCKDの学生モデルは、事前訓練されたShuffleNetV1よりも6.55\%高いトップ1精度を達成する。
関連論文リスト
- Continual Distillation Learning [9.948802793399647]
継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題について検討する。
教師モデルと学生モデルは一連の課題を学習し、生徒モデルを改善するために教師モデルに関する知識を学生に蒸留する。
CDL-Promptという新しい手法を導入し,教師-学生モデルの構築にアクセプティブベースの連続学習モデルを用いた。
論文 参考訳(メタデータ) (2024-07-18T21:52:57Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。