論文の概要: Momentum Adversarial Distillation: Handling Large Distribution Shifts in
Data-Free Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2209.10359v1
- Date: Wed, 21 Sep 2022 13:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:24:37.423044
- Title: Momentum Adversarial Distillation: Handling Large Distribution Shifts in
Data-Free Knowledge Distillation
- Title(参考訳): データフリーな知識蒸留における大規模分散シフトの処理
- Authors: Kien Do, Hung Le, Dung Nguyen, Dang Nguyen, Haripriya Harikumar,
Truyen Tran, Santu Rana, Svetha Venkatesh
- Abstract要約: モーメントム逆蒸留法(MAD)という簡便で効果的な方法を提案する。
MADは、ジェネレータの指数移動平均(EMA)コピーを保持し、ジェネレータとEMAジェネレータの合成サンプルを使用して生徒を訓練する。
ImageNetやPlaces365のような大きなデータセットを含む6つのベンチマークデータセットの実験では、競合する手法よりもMADの方が優れた性能を示している。
- 参考スコア(独自算出の注目度): 65.28708064066764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-free Knowledge Distillation (DFKD) has attracted attention recently
thanks to its appealing capability of transferring knowledge from a teacher
network to a student network without using training data. The main idea is to
use a generator to synthesize data for training the student. As the generator
gets updated, the distribution of synthetic data will change. Such distribution
shift could be large if the generator and the student are trained
adversarially, causing the student to forget the knowledge it acquired at
previous steps. To alleviate this problem, we propose a simple yet effective
method called Momentum Adversarial Distillation (MAD) which maintains an
exponential moving average (EMA) copy of the generator and uses synthetic
samples from both the generator and the EMA generator to train the student.
Since the EMA generator can be considered as an ensemble of the generator's old
versions and often undergoes a smaller change in updates compared to the
generator, training on its synthetic samples can help the student recall the
past knowledge and prevent the student from adapting too quickly to new updates
of the generator. Our experiments on six benchmark datasets including big
datasets like ImageNet and Places365 demonstrate the superior performance of
MAD over competing methods for handling the large distribution shift problem.
Our method also compares favorably to existing DFKD methods and even achieves
state-of-the-art results in some cases.
- Abstract(参考訳): データフリーな知識蒸留(DFKD)は,教師ネットワークから学生ネットワークに学習データを用いずに知識を伝達する機能によって近年注目を集めている。
主なアイデアは、ジェネレータを使って生徒を訓練するためのデータを合成することだ。
発電機が更新されると、合成データの分布が変化する。
このような分布シフトは、ジェネレータと生徒が敵対的に訓練されると大きくなり、学生はそれまでのステップで得た知識を忘れてしまう。
この問題を軽減するために, 指数移動平均(EMA)コピーを維持し, 発電機とEMAジェネレータの合成サンプルを用いて生徒を訓練する, 簡易かつ効果的なMAD (Momentum Adversarial Distillation) を提案する。
emaジェネレータは、ジェネレータの古いバージョンのアンサンブルと見なすことができ、ジェネレータに比べて更新の小さな変更を行うことが多いため、その合成サンプルのトレーニングは、学生が過去の知識を思い出すのに役立ち、ジェネレータの新しい更新に学生が早すぎることを防げる。
ImageNetやPlaces365のような大規模データセットを含む6つのベンチマークデータセットに対する実験では、大規模な分散シフト問題を扱う競合手法よりもMADの方が優れた性能を示した。
また,本手法は既存のDFKD法と良好に比較でき,場合によっては最先端の結果も得られる。
関連論文リスト
- Multi-student Diffusion Distillation for Better One-step Generators [29.751205880199855]
マルチスチューデント蒸留(Multi-Student Distillation、MSD)は、条件付き教師拡散モデルを複数の単段階発生器に蒸留するフレームワークである。
MSDは、複数の蒸留された学生を訓練し、より小さいサイズで、したがってより高速な推論を可能にした。
4人の同じサイズの学生を使って、MSDはワンステップ画像生成のための新しい最先端技術、ImageNet-64x64でFID 1.20、ゼロショットCOCO2014で8.20を設定。
論文 参考訳(メタデータ) (2024-10-30T17:54:56Z) - Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。
SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文 参考訳(メタデータ) (2024-04-05T12:30:19Z) - NAYER: Noisy Layer Data Generation for Efficient and Effective Data-free Knowledge Distillation [42.435293471992274]
Data-Free Knowledge Distillation (DFKD)は、教師のニューラルネットワークから学生のニューラルネットワークに、元のデータにアクセスせずに知識を移すことによって、近年大きな進歩を遂げている。
既存のアプローチは、本質的に意味のある情報を欠くランダムノイズ入力からサンプルを生成する際に、重大な課題に直面する。
本稿では,入力からノイズ層へランダムなソースを移動させる新しいノイズ層生成法(NAYER)を提案し,その入力として有意な定数ラベルテキスト埋め込み(LTE)を利用する。
論文 参考訳(メタデータ) (2023-09-30T05:19:10Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Dynamically Masked Discriminator for Generative Adversarial Networks [71.33631511762782]
GAN(Generative Adversarial Networks)のトレーニングは依然として難しい問題である。
識別器は、実際の/生成されたデータの分布を学習してジェネレータを訓練する。
本稿では,オンライン連続学習の観点から,GANの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T12:07:01Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Data-Free Network Quantization With Adversarial Knowledge Distillation [39.92282726292386]
本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。
合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。
複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。
論文 参考訳(メタデータ) (2020-05-08T16:24:55Z) - Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN [80.17705319689139]
複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するために,データフリーな知識アマルガメート戦略を提案する。
トレーニングデータを持たない提案手法は, フル教師付き手法と比較して, 驚くほど競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-03-20T03:20:52Z) - Distilling portable Generative Adversarial Networks for Image
Translation [101.33731583985902]
従来のネットワーク圧縮手法は、視覚的に認識されるタスクに焦点をあてるが、生成タスクには対処しない。
知識蒸留にインスパイアされた学生は、元の重教師ジェネレータから低レベルおよび高レベル情報を継承することにより、少ないパラメータの学生ジェネレータを訓練する。
生徒ジェネレータと生徒識別器を最適化するために、対向学習プロセスを確立する。
論文 参考訳(メタデータ) (2020-03-07T05:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。