論文の概要: Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation
- arxiv url: http://arxiv.org/abs/2102.11638v1
- Date: Tue, 23 Feb 2021 11:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 23:35:00.821554
- Title: Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation
- Title(参考訳): アクティベーション正則化と仮想補間によるデータ自由反転蒸留の促進
- Authors: Xiaoyang Qu, Jianzong Wang, Jing Xiao
- Abstract要約: データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
- 参考スコア(独自算出の注目度): 19.778192371420793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation refers to a technique of transferring the knowledge
from a large learned model or an ensemble of learned models to a small model.
This method relies on access to the original training set, which might not
always be available. A possible solution is a data-free adversarial
distillation framework, which deploys a generative network to transfer the
teacher model's knowledge to the student model. However, the data generation
efficiency is low in the data-free adversarial distillation. We add an
activation regularizer and a virtual interpolation method to improve the data
generation efficiency. The activation regularizer enables the students to match
the teacher's predictions close to activation boundaries and decision
boundaries. The virtual interpolation method can generate virtual samples and
labels in-between decision boundaries. Our experiments show that our approach
surpasses state-of-the-art data-free distillation methods. The student model
can achieve 95.42% accuracy on CIFAR-10 and 77.05% accuracy on CIFAR-100
without any original training data. Our model's accuracy is 13.8% higher than
the state-of-the-art data-free method on CIFAR-100.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation)とは、知識を大きな学習モデルや学習モデルのアンサンブルから小さなモデルに移す技術を指す。
この方法はオリジナルのトレーニングセットへのアクセスに依存するが、必ずしも利用できるとは限らない。
可能な解決策は、教師モデルの知識を学生モデルに転送するために生成ネットワークをデプロイするデータフリーの逆蒸留フレームワークです。
しかし、データフリーの対比蒸留では、データ生成効率は低い。
データ生成効率を向上させるために、アクティベーションレギュレータと仮想補間法を追加します。
アクティベーション規則化により、生徒は、アクティベーション境界と決定境界に近い教師の予測を一致させることができる。
仮想補間法は、決定境界の間の仮想サンプルとラベルを生成することができる。
実験では、最新のデータフリー蒸留法を超えるアプローチが示されています。
学生モデルはCIFAR-10で95.42%、CIFAR-100で77.05%の精度が得られる。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
関連論文リスト
- BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。