論文の概要: Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup
- arxiv url: http://arxiv.org/abs/2012.09413v1
- Date: Thu, 17 Dec 2020 06:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:26:37.311164
- Title: Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup
- Title(参考訳): 不確かさ認識混合による計算効率の良い知識蒸留
- Authors: Guodong Xu, Ziwei Liu, Chen Change Loy
- Abstract要約: 我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
- 参考スコア(独自算出の注目度): 91.1317510066954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation, which involves extracting the "dark knowledge" from a
teacher network to guide the learning of a student network, has emerged as an
essential technique for model compression and transfer learning. Unlike
previous works that focus on the accuracy of student network, here we study a
little-explored but important question, i.e., knowledge distillation
efficiency. Our goal is to achieve a performance comparable to conventional
knowledge distillation with a lower computation cost during training. We show
that the UNcertainty-aware mIXup (UNIX) can serve as a clean yet effective
solution. The uncertainty sampling strategy is used to evaluate the
informativeness of each training sample. Adaptive mixup is applied to uncertain
samples to compact knowledge. We further show that the redundancy of
conventional knowledge distillation lies in the excessive learning of easy
samples. By combining uncertainty and mixup, our approach reduces the
redundancy and makes better use of each query to the teacher network. We
validate our approach on CIFAR100 and ImageNet. Notably, with only 79%
computation cost, we outperform conventional knowledge distillation on CIFAR100
and achieve a comparable result on ImageNet.
- Abstract(参考訳): 学生ネットワークの学習を指導するために教師ネットワークから「暗黒知識」を抽出する知識蒸留が,モデル圧縮と伝達学習に不可欠な技術として登場した。
学生ネットワークの正確さに焦点をあてた以前の研究とは違って,本研究では,知識蒸留の効率性について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
不確実性サンプリング戦略は、各トレーニングサンプルの情報性を評価するために使用される。
適応混合は不確実なサンプルにコンパクトな知識に適用される。
さらに、従来の知識蒸留の冗長性は、簡単なサンプルの過剰な学習にあることを示す。
不確実性と混在性を組み合わせることで,提案手法は冗長性を低減し,教師ネットワークに対する各クエリをより活用する。
CIFAR100とImageNetのアプローチを検証する。
特に,計算コストがわずか79%のCIFAR100では,従来の知識蒸留よりも優れており,ImageNetでは同等の結果が得られる。
関連論文リスト
- Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。
モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。
本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文 参考訳(メタデータ) (2024-06-11T06:51:02Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - ResKD: Residual-Guided Knowledge Distillation [22.521831561264534]
我々は,教師と学生の知識ギャップ,あるいは残余を指導として,新鮮な光の知識蒸留を見ることができる。
留学生と留学生を新しい学生に結合し、留学生が前学生の誤りを正す。
我々は18.04$%、23.14$%、53.59$%、56.86$%の計算コストで競争性能を達成する。
論文 参考訳(メタデータ) (2020-06-08T16:18:45Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。