論文の概要: ResKD: Residual-Guided Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.04719v4
- Date: Tue, 9 Mar 2021 03:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:11:05.850972
- Title: ResKD: Residual-Guided Knowledge Distillation
- Title(参考訳): reskd: 残留誘導型知識蒸留
- Authors: Xuewei Li, Songyuan Li, Bourahla Omar, Fei Wu, and Xi Li
- Abstract要約: 我々は,教師と学生の知識ギャップ,あるいは残余を指導として,新鮮な光の知識蒸留を見ることができる。
留学生と留学生を新しい学生に結合し、留学生が前学生の誤りを正す。
我々は18.04$%、23.14$%、53.59$%、56.86$%の計算コストで競争性能を達成する。
- 参考スコア(独自算出の注目度): 22.521831561264534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation, aimed at transferring the knowledge from a heavy
teacher network to a lightweight student network, has emerged as a promising
technique for compressing neural networks. However, due to the capacity gap
between the heavy teacher and the lightweight student, there still exists a
significant performance gap between them. In this paper, we see knowledge
distillation in a fresh light, using the knowledge gap, or the residual,
between a teacher and a student as guidance to train a much more lightweight
student, called a res-student. We combine the student and the res-student into
a new student, where the res-student rectifies the errors of the former
student. Such a residual-guided process can be repeated until the user strikes
the balance between accuracy and cost. At inference time, we propose a
sample-adaptive strategy to decide which res-students are not necessary for
each sample, which can save computational cost. Experimental results show that
we achieve competitive performance with 18.04$\%$, 23.14$\%$, 53.59$\%$, and
56.86$\%$ of the teachers' computational costs on the CIFAR-10, CIFAR-100,
Tiny-ImageNet, and ImageNet datasets. Finally, we do thorough theoretical and
empirical analysis for our method.
- Abstract(参考訳): 重質な教師ネットワークから軽量な学生ネットワークへ知識を伝達することを目的とした知識蒸留が,ニューラルネットワークを圧縮するための有望な手法として登場した。
しかし、重質な教師と軽質な生徒の間には容量差があるため、その間には大きな性能差がある。
本稿では,教師と学生の知識ギャップ,あるいは残余を生かし,より軽量な学生を育成するための指導として,新しい光による知識蒸留(res-student)を考察する。
我々は,学生と学生を融合して,学生の誤りを修正した新しい学生とする。
このような残留誘導プロセスは、ユーザが精度とコストのバランスをとるまで繰り返すことができる。
提案手法では,各サンプルに対してどのres-studentsが不要かを判断し,計算コストを削減できるサンプル適応戦略を提案する。
実験結果から,CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNetデータセット上での教師の計算コストの18.04$\%$, 23.14$\%$, 53.59$\%$, 56.86$\%$の競争性能が得られた。
最後に,本手法の理論的および経験的分析を徹底的に行う。
関連論文リスト
- Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation [22.87106703794863]
アンサンブル教師からの知識の蒸留を、より小さな学生ネットワークに動機付ける。
本研究では,複数作業を行う学生を対象に,アンサンブル教師の機能的多様性を吸収するウェイト平均化手法を提案する。
また,教師の多様性をよりよく生徒に伝達できるインプットを求める摂動戦略を提案する。
論文 参考訳(メタデータ) (2022-06-30T06:23:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Teacher-Class Network: A Neural Network Compression Mechanism [2.257416403770908]
提案手法は,1人の生徒にのみ知識を伝達する代わりに,各生徒に知識の一部を伝達する。
我々の学生は問題固有のロジットの訓練を受けておらず、教師ネットワークで学んだ知識(センス表現)を模倣するように訓練されている。
提案した教師クラスアーキテクチャは,MNIST,Fashion MNIST,IMDB Movie Reviews,CAMVid,CIFAR-10,ImageNetなどのベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2020-04-07T11:31:20Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。