論文の概要: Dynamic Data-Free Knowledge Distillation by Easy-to-Hard Learning
Strategy
- arxiv url: http://arxiv.org/abs/2208.13648v3
- Date: Tue, 4 Jul 2023 01:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 00:17:11.088873
- Title: Dynamic Data-Free Knowledge Distillation by Easy-to-Hard Learning
Strategy
- Title(参考訳): 難解な学習戦略による動的データフリー知識蒸留
- Authors: Jingru Li, Sheng Zhou, Liangcheng Li, Haishuai Wang, Zhi Yu, Jiajun Bu
- Abstract要約: そこで我々はCuDFKDと呼ばれる新しいDFKD法を提案する。
学生に動的戦略で教えることによって、容易に硬い擬似サンプルを徐々に生成する。
実験の結果、CuDFKDはすべてのデータセットの最先端(SOTA)DFKDメソッドに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 20.248947197916642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-free knowledge distillation (DFKD) is a widely-used strategy for
Knowledge Distillation (KD) whose training data is not available. It trains a
lightweight student model with the aid of a large pretrained teacher model
without any access to training data. However, existing DFKD methods suffer from
inadequate and unstable training process, as they do not adjust the generation
target dynamically based on the status of the student model during learning. To
address this limitation, we propose a novel DFKD method called CuDFKD. It
teaches students by a dynamic strategy that gradually generates easy-to-hard
pseudo samples, mirroring how humans learn. Besides, CuDFKD adapts the
generation target dynamically according to the status of student model.
Moreover, We provide a theoretical analysis of the majorization minimization
(MM) algorithm and explain the convergence of CuDFKD. To measure the robustness
and fidelity of DFKD methods, we propose two more metrics, and experiments
shows CuDFKD has comparable performance to state-of-the-art (SOTA) DFKD methods
on all datasets. Experiments also present that our CuDFKD has the fastest
convergence and best robustness over other SOTA DFKD methods.
- Abstract(参考訳): data-free knowledge distillation (dfkd) は、トレーニングデータが利用できない知識蒸留戦略 (kd) である。
訓練データにアクセスせずに、大きな事前訓練された教師モデルの助けを借りて、軽量の学生モデルを訓練する。
しかし,既存のdfkd法は,学習中の学習モデルの状態に応じて動的に生成目標を調整することができないため,不適切な不安定なトレーニングプロセスに苦しむ。
この制限に対処するため,CuDFKDと呼ばれる新しいDFKD法を提案する。
生徒に、人間が学習する方法を反映して、徐々に難解な疑似サンプルを生成するダイナミックな戦略を教える。
また、CuDFKDは、学生モデルの状態に応じて生成対象を動的に適応させる。
さらに, 大規模化最小化(MM)アルゴリズムの理論解析を行い, CuDFKDの収束性を説明する。
DFKD手法のロバスト性および忠実性を評価するために,CuDFKDがすべてのデータセットにおける最先端(SOTA)DFKD手法に匹敵する性能を持つことを示す実験を行った。
また、我々のCuDFKDは、他のSOTA DFKD法よりも早く収束し、最も堅牢であることを示す。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - Up to 100x Faster Data-free Knowledge Distillation [52.666615987503995]
我々はFastDFKDを導入し、FastDFKDを桁違いに高速化する。
データの集合を個別に最適化する従来の方法とは異なり、共通の特徴を求めるメタシンセサイザーを学習することを提案する。
FastDFKDはほんの数ステップでデータ合成を実現し、データフリートレーニングの効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-12T14:56:58Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Confidence Conditioned Knowledge Distillation [8.09591217280048]
教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
論文 参考訳(メタデータ) (2021-07-06T00:33:25Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。