論文の概要: Accelerating Dataset Distillation via Model Augmentation
- arxiv url: http://arxiv.org/abs/2212.06152v1
- Date: Mon, 12 Dec 2022 07:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:43:49.741477
- Title: Accelerating Dataset Distillation via Model Augmentation
- Title(参考訳): モデル拡張によるデータセット蒸留の促進
- Authors: Lei Zhang, Jie Zhang, Bowen Lei, Subhabrata Mukherjee, Xiang Pan, Bo
Zhao, Caiwen Ding, Yao Li, Dongkuan Xu
- Abstract要約: トレーニングコストを大幅に削減した情報合成集合を学習するための2つのTextbfmodel拡張手法を提案する。
提案手法は,最先端のベースライン法と同等の性能で,最大20$times$ Speedupを実現している。
- 参考スコア(独自算出の注目度): 41.3027484667024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation (DD), a newly emerging field, aims at generating much
smaller and high-quality synthetic datasets from large ones. Existing DD
methods based on gradient matching achieve leading performance; however, they
are extremely computationally intensive as they require continuously optimizing
a dataset among thousands of randomly initialized models. In this paper, we
assume that training the synthetic data with diverse models leads to better
generalization performance. Thus we propose two \textbf{model augmentation}
techniques, ~\ie using \textbf{early-stage models} and \textbf{weight
perturbation} to learn an informative synthetic set with significantly reduced
training cost. Extensive experiments demonstrate that our method achieves up to
20$\times$ speedup and comparable performance on par with state-of-the-art
baseline methods.
- Abstract(参考訳): 新たな分野であるデータセット蒸留(DD)は、大規模データからはるかに小さく高品質な合成データセットを生成することを目的としている。
勾配マッチングに基づく既存のDD手法は、先行性能を達成するが、数千のランダム初期化モデルの間でデータセットを継続的に最適化する必要があるため、非常に計算集約的である。
本稿では,多種多様なモデルを用いた合成データの学習が一般化性能の向上につながると仮定する。
そこで本稿では, 学習コストを大幅に削減した情報合成集合を学習するために, \textbf{early-stage model} と \textbf{weight perturbation} の2つの手法を提案する。
実験の結果,提案手法は20$\times$ の高速化と,最先端のベースライン法と同等の性能を達成できた。
関連論文リスト
- Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。