論文の概要: Robustness and Diversity Seeking Data-Free Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2011.03749v3
- Date: Wed, 10 Feb 2021 09:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:25:15.297737
- Title: Robustness and Diversity Seeking Data-Free Knowledge Distillation
- Title(参考訳): データフリーな知識蒸留をめざすロバストさと多様性
- Authors: Pengchao Han, Jihong Park, Shiqiang Wang, Yejun Liu
- Abstract要約: 本稿では,データフリーなKD(RDSKD)を求める頑健さと多様性を提案する。
MNIST, CIFAR-10, SVHNデータセットを用いて, RDSKDは異なるハイパーパラメータ設定よりも高い堅牢性で高い精度を達成することを示す。
- 参考スコア(独自算出の注目度): 15.768480007698876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has enabled remarkable progress in model
compression and knowledge transfer. However, KD requires a large volume of
original data or their representation statistics that are not usually available
in practice. Data-free KD has recently been proposed to resolve this problem,
wherein teacher and student models are fed by a synthetic sample generator
trained from the teacher. Nonetheless, existing data-free KD methods rely on
fine-tuning of weights to balance multiple losses, and ignore the diversity of
generated samples, resulting in limited accuracy and robustness. To overcome
this challenge, we propose robustness and diversity seeking data-free KD
(RDSKD) in this paper. The generator loss function is crafted to produce
samples with high authenticity, class diversity, and inter-sample diversity.
Without real data, the objectives of seeking high sample authenticity and class
diversity often conflict with each other, causing frequent loss fluctuations.
We mitigate this by exponentially penalizing loss increments. With MNIST,
CIFAR-10, and SVHN datasets, our experiments show that RDSKD achieves higher
accuracy with more robustness over different hyperparameter settings, compared
to other data-free KD methods such as DAFL, MSKD, ZSKD, and DeepInversion.
- Abstract(参考訳): 知識蒸留(kd)はモデル圧縮と知識伝達の著しい進歩をもたらした。
しかし、kdは、通常使用できない大量のオリジナルデータまたはそれらの表現統計を必要とする。
データフリーKDは、教師と生徒のモデルが教師から訓練された合成サンプルジェネレータによって供給される、この問題を解決するために最近提案されている。
それでも、既存のデータフリーkd法は、複数の損失のバランスをとるために重みを微調整し、生成されたサンプルの多様性を無視することで、精度と堅牢性が制限される。
そこで本稿では,データフリーなKD(RDSKD)を求める頑健性と多様性を提案する。
ジェネレータ損失関数は、高い信頼性、クラス多様性、サンプル間多様性を持つサンプルを生成するために作成される。
実データがないと、高いサンプル信頼性とクラス多様性を求める目的はしばしば相反し、頻繁に損失変動を引き起こす。
損失増分を指数関数的に罰することでこれを緩和する。
MNIST, CIFAR-10, SVHNデータセットを用いて, RDSKDはDAFL, MSKD, ZSKD, Deep Inversionなどの他のデータフリーなKD手法と比較して, 異なるハイパーパラメータ設定よりも高い堅牢性で高い精度を達成することを示した。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。
KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。
本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文 参考訳(メタデータ) (2024-08-25T14:43:27Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data [5.064036314529226]
本稿では,データフリーなKDフレームワークを提案する。
実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
論文 参考訳(メタデータ) (2021-08-11T08:11:08Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。