論文の概要: PrUE: Distilling Knowledge from Sparse Teacher Networks
- arxiv url: http://arxiv.org/abs/2207.00586v1
- Date: Sun, 3 Jul 2022 08:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 11:08:54.938921
- Title: PrUE: Distilling Knowledge from Sparse Teacher Networks
- Title(参考訳): PrUE:スパース教師ネットワークからの知識の希薄化
- Authors: Shaopu Wang, Xiaojun Chen, Mengzhen Kou, Jinqiao Shi
- Abstract要約: 本稿では,教師をシンプルにするために,予測不確実性向上(PrUE)と呼ばれるプルーニング手法を提案する。
CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。
提案手法により,より深いネットワークから知識を抽出し,学生をさらに改善することができる。
- 参考スコア(独自算出の注目度): 4.087221125836262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep neural networks have enjoyed remarkable success across a wide
variety of tasks, their ever-increasing size also imposes significant overhead
on deployment. To compress these models, knowledge distillation was proposed to
transfer knowledge from a cumbersome (teacher) network into a lightweight
(student) network. However, guidance from a teacher does not always improve the
generalization of students, especially when the size gap between student and
teacher is large. Previous works argued that it was due to the high certainty
of the teacher, resulting in harder labels that were difficult to fit. To
soften these labels, we present a pruning method termed Prediction Uncertainty
Enlargement (PrUE) to simplify the teacher. Specifically, our method aims to
decrease the teacher's certainty about data, thereby generating soft
predictions for students. We empirically investigate the effectiveness of the
proposed method with experiments on CIFAR-10/100, Tiny-ImageNet, and ImageNet.
Results indicate that student networks trained with sparse teachers achieve
better performance. Besides, our method allows researchers to distill knowledge
from deeper networks to improve students further. Our code is made public at:
\url{https://github.com/wangshaopu/prue}.
- Abstract(参考訳): ディープニューラルネットワークは、さまざまなタスクで目覚ましい成功を収めていますが、その拡大するサイズは、デプロイメントにかなりのオーバーヘッドを伴います。
これらのモデルを圧縮するために、知識蒸留法が提案され、扱いにくい(教師)ネットワークから軽量(学生)ネットワークへ知識を伝達する。
しかし,教師の指導は,特に学生と教師の差が大きい場合には,生徒の一般化を常に改善するとは限らない。
以前の作品では、それは教師の確証が高いためであり、その結果、適合が困難であったラベルが難しかった。
これらのラベルを軟化するために,教師を簡易化する予測不確実性向上法(PrUE)を提案する。
具体的には,データに対する教師の自信を減らし,学生の柔らかい予測を生み出すことを目的としている。
CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。
その結果,スパース教員の訓練を受けた学生ネットワークは,成績が良くなった。
さらに,より深いネットワークから知識を抽出し,さらに学生を育成する手法を提案する。
私たちのコードは、次のように公開されています。
関連論文リスト
- Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge by Mimicking Features [32.79431807764681]
我々は,教師の特徴を直感的な層に模倣させる方が,より有利であると主張している。
生徒は教師機能から直接より効果的な情報を学べるだけでなく、ソフトマックス層を使わずに訓練された教師にも機能模倣を適用することができる。
論文 参考訳(メタデータ) (2020-11-03T02:15:14Z) - Knowledge Distillation in Wide Neural Networks: Risk Bound, Data
Efficiency and Imperfect Teacher [40.74624021934218]
知識蒸留は、教師ネットワークからのソフトアウトプットのガイドで学生ネットワークを訓練する戦略である。
ニューラル・タンジェント・カーネルの最近の発見により、ネットワークのランダムな特徴の線形モデルを用いて、広いニューラルネットワークを近似することができる。
論文 参考訳(メタデータ) (2020-10-20T07:33:21Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Teacher-Class Network: A Neural Network Compression Mechanism [2.257416403770908]
提案手法は,1人の生徒にのみ知識を伝達する代わりに,各生徒に知識の一部を伝達する。
我々の学生は問題固有のロジットの訓練を受けておらず、教師ネットワークで学んだ知識(センス表現)を模倣するように訓練されている。
提案した教師クラスアーキテクチャは,MNIST,Fashion MNIST,IMDB Movie Reviews,CAMVid,CIFAR-10,ImageNetなどのベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2020-04-07T11:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。