論文の概要: Small Scale Data-Free Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2406.07876v1
- Date: Wed, 12 Jun 2024 05:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:25:01.719285
- Title: Small Scale Data-Free Knowledge Distillation
- Title(参考訳): 小規模データフリーな知識蒸留
- Authors: He Liu, Yikai Wang, Huaping Liu, Fuchun Sun, Anbang Yao,
- Abstract要約: 小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
- 参考スコア(独自算出の注目度): 37.708282211941416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-free knowledge distillation is able to utilize the knowledge learned by a large teacher network to augment the training of a smaller student network without accessing the original training data, avoiding privacy, security, and proprietary risks in real applications. In this line of research, existing methods typically follow an inversion-and-distillation paradigm in which a generative adversarial network on-the-fly trained with the guidance of the pre-trained teacher network is used to synthesize a large-scale sample set for knowledge distillation. In this paper, we reexamine this common data-free knowledge distillation paradigm, showing that there is considerable room to improve the overall training efficiency through a lens of ``small-scale inverted data for knowledge distillation". In light of three empirical observations indicating the importance of how to balance class distributions in terms of synthetic sample diversity and difficulty during both data inversion and distillation processes, we propose Small Scale Data-free Knowledge Distillation SSD-KD. In formulation, SSD-KD introduces a modulating function to balance synthetic samples and a priority sampling function to select proper samples, facilitated by a dynamic replay buffer and a reinforcement learning strategy. As a result, SSD-KD can perform distillation training conditioned on an extremely small scale of synthetic samples (e.g., 10X less than the original training data scale), making the overall training efficiency one or two orders of magnitude faster than many mainstream methods while retaining superior or competitive model performance, as demonstrated on popular image classification and semantic segmentation benchmarks. The code is available at https://github.com/OSVAI/SSD-KD.
- Abstract(参考訳): データフリーな知識蒸留は、大規模な教師ネットワークによって学んだ知識を利用して、元のトレーニングデータにアクセスすることなく、実際のアプリケーションにおけるプライバシ、セキュリティ、プロプライエタリなリスクを避けることなく、より小さな学生ネットワークのトレーニングを強化することができる。
本研究の行では, 既存の手法は, 知識蒸留のための大規模サンプルセットを合成するために, 教師ネットワークの指導により訓練された, 生成的対人ネットワークをオンザフライで構築する, 逆蒸留のパラダイムに従うのが一般的である。
本稿では,この共通データフリーな知識蒸留パラダイムを再検討し,知識蒸留のための「小規模逆データ」のレンズを用いて,総合的な学習効率を向上させる余地があることを述べる。
データインバージョンと蒸留プロセスの両方において, クラス分布の多様性と難易度を両立させることの重要性を示す実験的な3つの観測結果から, 小型データフリーな知識蒸留SSD-KDを提案する。
定式化においてSSD-KDは, 動的リプレイバッファと強化学習戦略により促進される, 合成サンプルと優先サンプリング関数のバランスをとる変調関数を導入し, 適切なサンプルを選択する。
その結果、SSD-KDは、非常に小さな合成サンプル(例えば、元のトレーニングデータスケールより10倍少ない)で蒸留訓練を行うことができ、一般的な画像分類やセマンティックセグメンテーションベンチマークで示されるように、多くの主流手法よりも1~2桁高速な訓練効率が得られる。
コードはhttps://github.com/OSVAI/SSD-KDで公開されている。
関連論文リスト
- Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文 参考訳(メタデータ) (2022-08-11T05:08:55Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。