論文の概要: How to Teach: Learning Data-Free Knowledge Distillation from Curriculum
- arxiv url: http://arxiv.org/abs/2208.13648v1
- Date: Mon, 29 Aug 2022 14:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:11:06.114921
- Title: How to Teach: Learning Data-Free Knowledge Distillation from Curriculum
- Title(参考訳): 教育方法:カリキュラムからデータフリーの知識蒸留を学ぶ
- Authors: Jingru Li, Sheng Zhou, Liangcheng Li, Xifeng Yan, Zhi Yu, Jiajun Bu
- Abstract要約: データフリー知識蒸留(DFKD)は、教師ネットワークからの軽量な学生ネットワークを、訓練データなしで訓練することを目的としている。
CuDFKDは、簡単なサンプルから難しいサンプルへと徐々に学習する。
ベンチマークデータセットを用いて行った実験により、CuDFKDは最先端のDFKD法よりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 21.833653154390465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-free knowledge distillation (DFKD) aims at training lightweight student
networks from teacher networks without training data. Existing approaches
mainly follow the paradigm of generating informative samples and progressively
updating student models by targeting data priors, boundary samples or memory
samples. However, it is difficult for the previous DFKD methods to dynamically
adjust the generation strategy at different training stages, which in turn
makes it difficult to achieve efficient and stable training. In this paper, we
explore how to teach students the model from a curriculum learning (CL)
perspective and propose a new approach, namely "CuDFKD", i.e., "Data-Free
Knowledge Distillation with Curriculum". It gradually learns from easy samples
to difficult samples, which is similar to the way humans learn. In addition, we
provide a theoretical analysis of the majorization minimization (MM) algorithm
and explain the convergence of CuDFKD. Experiments conducted on benchmark
datasets show that with a simple course design strategy, CuDFKD achieves the
best performance over state-of-the-art DFKD methods and different benchmarks,
such as 95.28\% top1 accuracy of the ResNet18 model on CIFAR10, which is better
than training from scratch with data. The training is fast, reaching the
highest accuracy of 90\% within 30 epochs, and the variance during training is
stable. Also in this paper, the applicability of CuDFKD is also analyzed and
discussed.
- Abstract(参考訳): data-free knowledge distillation(dfkd)は、教師ネットワークから学習データなしで軽量な学生ネットワークを訓練することを目的としている。
既存のアプローチでは,データプリエントやバウンダリサンプル,メモリサンプルを対象とする,有益なサンプル生成と,学生モデルの段階的な更新というパラダイムを主に採用している。
しかし,従来のdfkd法では,異なる訓練段階における生成戦略を動的に調整することは困難であり,効率的かつ安定した訓練を実現することは困難である。
本稿では,カリキュラム学習(CL)の観点から,学生にモデルを教える方法について検討し,新しいアプローチである「CuDFKD」,すなわち「カリキュラムによるデータフリー知識蒸留」を提案する。
簡単なサンプルから難しいサンプルへと徐々に学習し、これは人間が学ぶ方法に似ている。
さらに, 一般化最小化(MM)アルゴリズムの理論解析を行い, CuDFKDの収束性を説明する。
ベンチマークデータセットで実施された実験によると、CuDFKDは単純なコース設計戦略により、最新のDFKDメソッドと異なるベンチマーク(例えばCIFAR10上のResNet18モデルの95.28\%トップ1精度など)よりも最高のパフォーマンスを達成する。
トレーニングは高速で、最大精度は30エポック以内で90\%に達し、トレーニング中のばらつきは安定している。
また,CuDFKDの適用性についても検討し,検討した。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - Up to 100x Faster Data-free Knowledge Distillation [52.666615987503995]
我々はFastDFKDを導入し、FastDFKDを桁違いに高速化する。
データの集合を個別に最適化する従来の方法とは異なり、共通の特徴を求めるメタシンセサイザーを学習することを提案する。
FastDFKDはほんの数ステップでデータ合成を実現し、データフリートレーニングの効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-12T14:56:58Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Confidence Conditioned Knowledge Distillation [8.09591217280048]
教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
論文 参考訳(メタデータ) (2021-07-06T00:33:25Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。