論文の概要: Up to 100x Faster Data-free Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2112.06253v1
- Date: Sun, 12 Dec 2021 14:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 09:03:06.950674
- Title: Up to 100x Faster Data-free Knowledge Distillation
- Title(参考訳): データフリーな知識蒸留の最大100倍高速化
- Authors: Gongfan Fang, Kanya Mo, Xinchao Wang, Jie Song, Shitao Bei, Haofei
Zhang, Mingli Song
- Abstract要約: 我々はFastDFKDを導入し、FastDFKDを桁違いに高速化する。
データの集合を個別に最適化する従来の方法とは異なり、共通の特徴を求めるメタシンセサイザーを学習することを提案する。
FastDFKDはほんの数ステップでデータ合成を実現し、データフリートレーニングの効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 52.666615987503995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-free knowledge distillation (DFKD) has recently been attracting
increasing attention from research communities, attributed to its capability to
compress a model only using synthetic data. Despite the encouraging results
achieved, state-of-the-art DFKD methods still suffer from the inefficiency of
data synthesis, making the data-free training process extremely time-consuming
and thus inapplicable for large-scale tasks. In this work, we introduce an
efficacious scheme, termed as FastDFKD, that allows us to accelerate DFKD by a
factor of orders of magnitude. At the heart of our approach is a novel strategy
to reuse the shared common features in training data so as to synthesize
different data instances. Unlike prior methods that optimize a set of data
independently, we propose to learn a meta-synthesizer that seeks common
features as the initialization for the fast data synthesis. As a result,
FastDFKD achieves data synthesis within only a few steps, significantly
enhancing the efficiency of data-free training. Experiments over CIFAR, NYUv2,
and ImageNet demonstrate that the proposed FastDFKD achieves 10$\times$ and
even 100$\times$ acceleration while preserving performances on par with state
of the art.
- Abstract(参考訳): data-free knowledge distillation(dfkd)は最近、合成データのみを使用してモデルを圧縮する能力により、研究コミュニティから注目を集めている。
奨励的な結果にもかかわらず、最先端のDFKD手法は依然としてデータ合成の非効率性に悩まされており、データ不要なトレーニングプロセスは非常に時間がかかり、大規模なタスクには適用できない。
本研究では,FastDFKDと呼ばれる効率的スキームを導入し,DFKDを桁違いに高速化する手法を提案する。
私たちのアプローチの核心は、異なるデータインスタンスを合成するために、トレーニングデータで共有される共通の特徴を再利用する新しい戦略です。
データの集合を独立に最適化する従来の方法とは異なり、高速なデータ合成の初期化として共通の特徴を求めるメタ合成器の学習を提案する。
その結果、fastdfkdはほんの数ステップでデータ合成を実現し、データフリートレーニングの効率を大幅に向上させる。
CIFAR、NYUv2、ImageNetによる実験では、提案されたFastDFKDが10$\times$、100$\times$Accelerationを達成する一方で、最先端のパフォーマンスを保っている。
関連論文リスト
- Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion Augmentation [20.556083321381514]
データフリー知識蒸留(DFKD)は、モデル圧縮の領域において重要な技術である。
本稿では,多種拡散増強(DDA)によるDFKDの革新的アプローチを紹介する。
CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットの総合的な実験により, 本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-10-23T07:01:16Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Sampling to Distill: Knowledge Transfer from Open-World Data [28.74835717488114]
冗長な生成過程を伴わずにデータ自由知識蒸留(DFKD)タスクのための新しいオープンワールドデータサンプリング蒸留(ODSD)手法を提案する。
まず、適応サンプリングモジュールを用いて、原データの分布に近いオープンワールドデータをサンプリングする。
そこで我々は,学生モデル自体と教師の構造化表現を通して,データ知識を活用するために,複数のデータ例の構造化関係を構築した。
論文 参考訳(メタデータ) (2023-07-31T12:05:55Z) - Dynamic Data-Free Knowledge Distillation by Easy-to-Hard Learning
Strategy [20.248947197916642]
そこで我々はCuDFKDと呼ばれる新しいDFKD法を提案する。
学生に動的戦略で教えることによって、容易に硬い擬似サンプルを徐々に生成する。
実験の結果、CuDFKDはすべてのデータセットの最先端(SOTA)DFKDメソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-29T14:51:57Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Making Online Sketching Hashing Even Faster [63.16042585506435]
本稿では,FROSH(FasteR Online Sketching Hashing)アルゴリズムを提案する。
提案したFROSHがより少ない時間を消費し、同等のスケッチ精度を実現することを保証するための理論的正当性を提供する。
また、FROSHの分散実装であるDFROSHを拡張して、FROSHのトレーニング時間コストをさらに削減する。
論文 参考訳(メタデータ) (2020-10-10T08:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。