論文の概要: Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data
- arxiv url: http://arxiv.org/abs/2108.05698v1
- Date: Wed, 11 Aug 2021 08:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:43:28.867754
- Title: Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data
- Title(参考訳): 合成データによる知識蒸留におけるカタストロフィック生成と分布ミスマッチの防止
- Authors: Kuluhan Binici, Nam Trung Pham, Tulika Mitra, Karianto Leman
- Abstract要約: 本稿では,データフリーなKDフレームワークを提案する。
実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
- 参考スコア(独自算出の注目度): 5.064036314529226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity of deep learning on edge devices, compressing
large neural networks to meet the hardware requirements of resource-constrained
devices became a significant research direction. Numerous compression
methodologies are currently being used to reduce the memory sizes and energy
consumption of neural networks. Knowledge distillation (KD) is among such
methodologies and it functions by using data samples to transfer the knowledge
captured by a large model (teacher) to a smaller one(student). However, due to
various reasons, the original training data might not be accessible at the
compression stage. Therefore, data-free model compression is an ongoing
research problem that has been addressed by various works. In this paper, we
point out that catastrophic forgetting is a problem that can potentially be
observed in existing data-free distillation methods. Moreover, the sample
generation strategies in some of these methods could result in a mismatch
between the synthetic and real data distributions. To prevent such problems, we
propose a data-free KD framework that maintains a dynamic collection of
generated samples over time. Additionally, we add the constraint of matching
the real data distribution in sample generation strategies that target maximum
information gain. Our experiments demonstrate that we can improve the accuracy
of the student models obtained via KD when compared with state-of-the-art
approaches on the SVHN, Fashion MNIST and CIFAR100 datasets.
- Abstract(参考訳): エッジデバイスでのディープラーニングの普及に伴い、リソース制約されたデバイスのハードウェア要件を満たすために大規模なニューラルネットワークを圧縮することが、重要な研究方向となった。
現在、ニューラルネットワークのメモリサイズとエネルギー消費を減らすために多くの圧縮手法が使われている。
知識蒸留(KD)はそのような手法の一つであり、データサンプルを使用して、大きなモデル(教師)が取得した知識をより小さなモデル(学生)に転送することで機能する。
しかし、様々な理由から、オリジナルのトレーニングデータは圧縮段階ではアクセスできない可能性がある。
したがって、データフリーモデル圧縮は、様々な研究で対処されている研究課題である。
本稿では, 既設のデータフリー蒸留法において, 壊滅的消失が潜在的に観察できる問題であることを指摘する。
さらに、これらの方法のいくつかにおけるサンプル生成戦略は、合成データと実際のデータ分布のミスマッチをもたらす可能性がある。
そこで本研究では,生成したサンプルの動的コレクションを時間とともに維持する,データフリーなkdフレームワークを提案する。
さらに,最大情報ゲインを目標とするサンプル生成戦略において,実際のデータ分布をマッチングする制約を加える。
実験により, SVHN, Fashion MNIST, CIFAR100データセットの最先端手法と比較して, KD を用いて得られた学生モデルの精度を向上させることができた。
関連論文リスト
- From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying [12.272239607545089]
局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by
Generative Pseudo Replay [4.046350156305195]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Data-Free Network Quantization With Adversarial Knowledge Distillation [39.92282726292386]
本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。
合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。
複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。
論文 参考訳(メタデータ) (2020-05-08T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。