論文の概要: Data-Free Knowledge Distillation with Soft Targeted Transfer Set
Synthesis
- arxiv url: http://arxiv.org/abs/2104.04868v1
- Date: Sat, 10 Apr 2021 22:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 07:10:11.005860
- Title: Data-Free Knowledge Distillation with Soft Targeted Transfer Set
Synthesis
- Title(参考訳): ソフトターゲット転送セット合成によるデータフリーな知識蒸留
- Authors: Zi Wang
- Abstract要約: 知識蒸留(KD)は、ディープニューラルネットワーク圧縮に有効なアプローチであることが証明されている。
従来のkdでは、転送された知識は通常、トレーニングサンプルを教師ネットワークに供給することで得られる。
元のトレーニングデータセットは、ストレージコストやプライバシーの問題のために常に利用できるとは限らない。
本研究では,教師の中間特徴空間をモデル化し,データフリーなKD手法を提案する。
- 参考スコア(独自算出の注目度): 8.87104231451079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has proved to be an effective approach for deep
neural network compression, which learns a compact network (student) by
transferring the knowledge from a pre-trained, over-parameterized network
(teacher). In traditional KD, the transferred knowledge is usually obtained by
feeding training samples to the teacher network to obtain the class
probabilities. However, the original training dataset is not always available
due to storage costs or privacy issues. In this study, we propose a novel
data-free KD approach by modeling the intermediate feature space of the teacher
with a multivariate normal distribution and leveraging the soft targeted labels
generated by the distribution to synthesize pseudo samples as the transfer set.
Several student networks trained with these synthesized transfer sets present
competitive performance compared to the networks trained with the original
training set and other data-free KD approaches.
- Abstract(参考訳): 知識蒸留(kd)は、事前訓練された過パラメータネットワーク(教師)から知識を転送することで、コンパクトネットワーク(学生)を学習するディープニューラルネットワーク圧縮の効果的なアプローチであることが証明されている。
従来のkdでは、転送された知識は通常、教師ネットワークにトレーニングサンプルを供給してクラス確率を得る。
しかし、ストレージコストやプライバシの問題のために、オリジナルのトレーニングデータセットが常に利用できるとは限らない。
本研究では,教師の中間的特徴空間を多変量正規分布でモデル化し,その分布によって生成されたソフトターゲットラベルを用いて擬似サンプルを転送集合として合成し,新しいデータフリーkd手法を提案する。
これらの合成転送セットで訓練されたいくつかの学生ネットワークは、元のトレーニングセットや他のデータフリーkdアプローチで訓練されたネットワークと比較して競争力のある性能を示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Learning to Retain while Acquiring: Combating Distribution-Shift in
Adversarial Data-Free Knowledge Distillation [31.294947552032088]
データフリーな知識蒸留(DFKD)は、教師から学生ニューラルネットワークへの知識伝達を、訓練データがない状態で行うという基本的な考え方により、近年人気を集めている。
本稿では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)の課題を取り扱うことで,メタ学習にインスパイアされたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T03:50:56Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge
Distillation [28.874162427052905]
本研究では, ランダムノイズ, 公開合成, 自然データセットなどの「任意移動集合」の有効性について検討する。
このデータセットが「ターゲットクラスのバランス」である場合、任意のデータを用いて知識蒸留を行うことによる驚くべき効果を見出す。
論文 参考訳(メタデータ) (2020-11-18T06:33:20Z) - Towards Accurate Quantization and Pruning via Data-free Knowledge
Transfer [61.85316480370141]
我々は、訓練された大規模ネットワークからコンパクトネットワークへの知識の伝達により、データフリーな量子化とプルーニングを研究する。
データフリーなコンパクトネットワークは、トレーニングデータで訓練され、微調整されたネットワークに対して、競争精度を達成する。
論文 参考訳(メタデータ) (2020-10-14T18:02:55Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。