Fugu-MT 論文翻訳(概要): Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data

論文の概要: Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data

arxiv url: http://arxiv.org/abs/2108.05698v1
Date: Wed, 11 Aug 2021 08:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-13 14:43:28.867754
Title: Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data
Title（参考訳）: 合成データによる知識蒸留におけるカタストロフィック生成と分布ミスマッチの防止
Authors: Kuluhan Binici, Nam Trung Pham, Tulika Mitra, Karianto Leman
Abstract要約: 本稿では,データフリーなKDフレームワークを提案する。実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
参考スコア（独自算出の注目度）: 5.064036314529226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing popularity of deep learning on edge devices, compressing large neural networks to meet the hardware requirements of resource-constrained devices became a significant research direction. Numerous compression methodologies are currently being used to reduce the memory sizes and energy consumption of neural networks. Knowledge distillation (KD) is among such methodologies and it functions by using data samples to transfer the knowledge captured by a large model (teacher) to a smaller one(student). However, due to various reasons, the original training data might not be accessible at the compression stage. Therefore, data-free model compression is an ongoing research problem that has been addressed by various works. In this paper, we point out that catastrophic forgetting is a problem that can potentially be observed in existing data-free distillation methods. Moreover, the sample generation strategies in some of these methods could result in a mismatch between the synthetic and real data distributions. To prevent such problems, we propose a data-free KD framework that maintains a dynamic collection of generated samples over time. Additionally, we add the constraint of matching the real data distribution in sample generation strategies that target maximum information gain. Our experiments demonstrate that we can improve the accuracy of the student models obtained via KD when compared with state-of-the-art approaches on the SVHN, Fashion MNIST and CIFAR100 datasets.
Abstract（参考訳）: エッジデバイスでのディープラーニングの普及に伴い、リソース制約されたデバイスのハードウェア要件を満たすために大規模なニューラルネットワークを圧縮することが、重要な研究方向となった。現在、ニューラルネットワークのメモリサイズとエネルギー消費を減らすために多くの圧縮手法が使われている。知識蒸留(KD)はそのような手法の一つであり、データサンプルを使用して、大きなモデル(教師)が取得した知識をより小さなモデル(学生)に転送することで機能する。しかし、様々な理由から、オリジナルのトレーニングデータは圧縮段階ではアクセスできない可能性がある。したがって、データフリーモデル圧縮は、様々な研究で対処されている研究課題である。本稿では, 既設のデータフリー蒸留法において, 壊滅的消失が潜在的に観察できる問題であることを指摘する。さらに、これらの方法のいくつかにおけるサンプル生成戦略は、合成データと実際のデータ分布のミスマッチをもたらす可能性がある。そこで本研究では,生成したサンプルの動的コレクションを時間とともに維持する,データフリーなkdフレームワークを提案する。さらに,最大情報ゲインを目標とするサンプル生成戦略において,実際のデータ分布をマッチングする制約を加える。実験により, SVHN, Fashion MNIST, CIFAR100データセットの最先端手法と比較して, KD を用いて得られた学生モデルの精度を向上させることができた。

関連論文リスト

Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文参考訳（メタデータ） (2025-07-14T04:41:38Z)
A Brief Review for Compression and Transfer Learning Techniques in DeepFake Detection [13.783950035836593]
エッジデバイス上でのディープフェイク検出モデルのトレーニングとデプロイは、ソースに近い処理によってデータのプライバシと機密性を維持するというメリットを提供する。本稿では,計算要求と推論時間を削減する圧縮手法と,学習オーバーヘッドを最小限に抑える伝達学習手法について検討する。
論文参考訳（メタデータ） (2025-04-29T13:37:21Z)
Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文参考訳（メタデータ） (2024-12-21T00:40:58Z)
Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion Augmentation [20.556083321381514]
データフリー知識蒸留(DFKD)は、モデル圧縮の領域において重要な技術である。本稿では,多種拡散増強(DDA)によるDFKDの革新的アプローチを紹介する。 CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットの総合的な実験により, 本手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-10-23T07:01:16Z)
Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。 KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文参考訳（メタデータ） (2024-08-25T14:43:27Z)
Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。 SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文参考訳（メタデータ） (2024-06-12T05:09:41Z)
From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。 textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文参考訳（メタデータ） (2023-10-06T10:36:28Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
ScoreMix: A Scalable Augmentation Strategy for Training GANs with Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。 ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文参考訳（メタデータ） (2022-10-27T02:55:15Z)
Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。これは、学生が合成データの分布シフトによって知識劣化を経験するからである。これまでに観測された合成試料の分布をモデル化する。
論文参考訳（メタデータ） (2022-01-09T14:14:28Z)
Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文参考訳（メタデータ） (2021-08-26T14:01:04Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)
Data-Free Network Quantization With Adversarial Knowledge Distillation [39.92282726292386]
本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。
論文参考訳（メタデータ） (2020-05-08T16:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。