論文の概要: Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data
- arxiv url: http://arxiv.org/abs/2108.05698v1
- Date: Wed, 11 Aug 2021 08:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:43:28.867754
- Title: Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data
- Title(参考訳): 合成データによる知識蒸留におけるカタストロフィック生成と分布ミスマッチの防止
- Authors: Kuluhan Binici, Nam Trung Pham, Tulika Mitra, Karianto Leman
- Abstract要約: 本稿では,データフリーなKDフレームワークを提案する。
実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
- 参考スコア(独自算出の注目度): 5.064036314529226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity of deep learning on edge devices, compressing
large neural networks to meet the hardware requirements of resource-constrained
devices became a significant research direction. Numerous compression
methodologies are currently being used to reduce the memory sizes and energy
consumption of neural networks. Knowledge distillation (KD) is among such
methodologies and it functions by using data samples to transfer the knowledge
captured by a large model (teacher) to a smaller one(student). However, due to
various reasons, the original training data might not be accessible at the
compression stage. Therefore, data-free model compression is an ongoing
research problem that has been addressed by various works. In this paper, we
point out that catastrophic forgetting is a problem that can potentially be
observed in existing data-free distillation methods. Moreover, the sample
generation strategies in some of these methods could result in a mismatch
between the synthetic and real data distributions. To prevent such problems, we
propose a data-free KD framework that maintains a dynamic collection of
generated samples over time. Additionally, we add the constraint of matching
the real data distribution in sample generation strategies that target maximum
information gain. Our experiments demonstrate that we can improve the accuracy
of the student models obtained via KD when compared with state-of-the-art
approaches on the SVHN, Fashion MNIST and CIFAR100 datasets.
- Abstract(参考訳): エッジデバイスでのディープラーニングの普及に伴い、リソース制約されたデバイスのハードウェア要件を満たすために大規模なニューラルネットワークを圧縮することが、重要な研究方向となった。
現在、ニューラルネットワークのメモリサイズとエネルギー消費を減らすために多くの圧縮手法が使われている。
知識蒸留(KD)はそのような手法の一つであり、データサンプルを使用して、大きなモデル(教師)が取得した知識をより小さなモデル(学生)に転送することで機能する。
しかし、様々な理由から、オリジナルのトレーニングデータは圧縮段階ではアクセスできない可能性がある。
したがって、データフリーモデル圧縮は、様々な研究で対処されている研究課題である。
本稿では, 既設のデータフリー蒸留法において, 壊滅的消失が潜在的に観察できる問題であることを指摘する。
さらに、これらの方法のいくつかにおけるサンプル生成戦略は、合成データと実際のデータ分布のミスマッチをもたらす可能性がある。
そこで本研究では,生成したサンプルの動的コレクションを時間とともに維持する,データフリーなkdフレームワークを提案する。
さらに,最大情報ゲインを目標とするサンプル生成戦略において,実際のデータ分布をマッチングする制約を加える。
実験により, SVHN, Fashion MNIST, CIFAR100データセットの最先端手法と比較して, KD を用いて得られた学生モデルの精度を向上させることができた。
関連論文リスト
- Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion Augmentation [20.556083321381514]
データフリー知識蒸留(DFKD)は、モデル圧縮の領域において重要な技術である。
本稿では,多種拡散増強(DDA)によるDFKDの革新的アプローチを紹介する。
CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットの総合的な実験により, 本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-10-23T07:01:16Z) - Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。
KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。
本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文 参考訳(メタデータ) (2024-08-25T14:43:27Z) - Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Data-Free Network Quantization With Adversarial Knowledge Distillation [39.92282726292386]
本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。
合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。
複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。
論文 参考訳(メタデータ) (2020-05-08T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。