論文の概要: Distilling Knowledge by Mimicking Features
- arxiv url: http://arxiv.org/abs/2011.01424v2
- Date: Sat, 14 Aug 2021 01:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-30 04:17:41.499491
- Title: Distilling Knowledge by Mimicking Features
- Title(参考訳): 特徴の模倣による知識の蒸留
- Authors: Guo-Hua Wang, Yifan Ge, Jianxin Wu
- Abstract要約: 我々は,教師の特徴を直感的な層に模倣させる方が,より有利であると主張している。
生徒は教師機能から直接より効果的な情報を学べるだけでなく、ソフトマックス層を使わずに訓練された教師にも機能模倣を適用することができる。
- 参考スコア(独自算出の注目度): 32.79431807764681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a popular method to train efficient networks
("student") with the help of high-capacity networks ("teacher"). Traditional
methods use the teacher's soft logits as extra supervision to train the student
network. In this paper, we argue that it is more advantageous to make the
student mimic the teacher's features in the penultimate layer. Not only the
student can directly learn more effective information from the teacher feature,
feature mimicking can also be applied for teachers trained without a softmax
layer. Experiments show that it can achieve higher accuracy than traditional
KD. To further facilitate feature mimicking, we decompose a feature vector into
the magnitude and the direction. We argue that the teacher should give more
freedom to the student feature's magnitude, and let the student pay more
attention on mimicking the feature direction. To meet this requirement, we
propose a loss term based on locality-sensitive hashing (LSH). With the help of
this new loss, our method indeed mimics feature directions more accurately,
relaxes constraints on feature magnitudes, and achieves state-of-the-art
distillation accuracy. We provide theoretical analyses of how LSH facilitates
feature direction mimicking, and further extend feature mimicking to
multi-label recognition and object detection.
- Abstract(参考訳): 知識蒸留(KD)は、高容量ネットワーク(教師)の助けを借りて効率的なネットワーク(学生)を訓練する一般的な方法である。
伝統的な手法では、教師のソフトロジットを学生ネットワークを訓練するための余分な監督として使用する。
本稿では,学生にペナルティメート層における教師の特徴を模倣させることがより有利であると主張する。
生徒は教師機能から直接より効果的な情報を学べるだけでなく、機能の模倣はソフトマックス層なしで訓練された教師にも応用できる。
実験の結果、従来のkdよりも高い精度が得られることがわかった。
さらに機能模倣を容易にするために,特徴ベクトルを大きさと方向に分解する。
教師は生徒の特徴の大きさにより多くの自由を与え、生徒は特徴の方向性を模倣することにもっと注意を払うべきだと論じている。
この要件を満たすために,LSH(Locality-sensitive hashing)に基づく損失項を提案する。
この新たな損失の助けを借りて、本手法は、機能方向をより正確に模倣し、特徴量の制約を緩和し、最先端の蒸留精度を達成する。
lshが特徴方向模倣をいかに促進するかの理論解析を行い、特徴模倣をマルチラベル認識と物体検出にさらに拡張する。
関連論文リスト
- Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Knowledge Distillation Layer that Lets the Student Decide [6.689381216751284]
2つの異なる能力でKDを改善する学習可能なKD層を提案する。
一 教師の知識の活用の仕方を学び、ニュアンス情報を破棄し、及び、伝達された知識をより深めていくこと。
論文 参考訳(メタデータ) (2023-09-06T09:05:03Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - PrUE: Distilling Knowledge from Sparse Teacher Networks [4.087221125836262]
本稿では,教師をシンプルにするために,予測不確実性向上(PrUE)と呼ばれるプルーニング手法を提案する。
CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。
提案手法により,より深いネットワークから知識を抽出し,学生をさらに改善することができる。
論文 参考訳(メタデータ) (2022-07-03T08:14:24Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Locally Linear Region Knowledge Distillation [5.6592403195043826]
知識蒸留(KD)は、あるニューラルネットワーク(教師)から別の(学生)への知識伝達に有効な技術である
スパーストレーニングデータポイントでの知識の伝達は,教師機能の局所的な形状を十分に把握することができない,と我々は主張する。
本稿では, 局所的, 線形的領域の知識を教師から学生に伝達する局所的地域知識蒸留(rm L2$RKD)を提案する。
論文 参考訳(メタデータ) (2020-10-09T21:23:53Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。