論文の概要: Dataset Distillation via Curriculum Data Synthesis in Large Data Era
- arxiv url: http://arxiv.org/abs/2311.18838v2
- Date: Sun, 24 Nov 2024 17:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:28.251040
- Title: Dataset Distillation via Curriculum Data Synthesis in Large Data Era
- Title(参考訳): 大規模データ時代のカリキュラムデータ合成によるデータセット蒸留
- Authors: Zeyuan Yin, Zhiqiang Shen,
- Abstract要約: 本稿では,データ合成におけるカリキュラムデータ拡張によって実現された,シンプルで効果的なグローバル・ローカル・グラデーション・リファインメント・アプローチを提案する。
提案したモデルは、ImageNet-1K/21Kにおいて、SRe$2$L, TESLA, MTTといった現在の最先端の手法を4%以上のTop-1精度で上回り、初めて、フルデータのトレーニング対象に対するギャップを、絶対15%以下に削減する。
- 参考スコア(独自算出の注目度): 26.883100340763317
- License:
- Abstract: Dataset distillation or condensation aims to generate a smaller but representative subset from a large dataset, which allows a model to be trained more efficiently, meanwhile evaluating on the original testing data distribution to achieve decent performance. Previous decoupled methods like SRe$^2$L simply use a unified gradient update scheme for synthesizing data from Gaussian noise, while, we notice that the initial several update iterations will determine the final outline of synthesis, thus an improper gradient update strategy may dramatically affect the final generation quality. To address this, we introduce a simple yet effective global-to-local gradient refinement approach enabled by curriculum data augmentation ($\texttt{CDA}$) during data synthesis. The proposed framework achieves the current published highest accuracy on both large-scale ImageNet-1K and 21K with 63.2% under IPC (Images Per Class) 50 and 36.1% under IPC 20, using a regular input resolution of 224$\times$224 with faster convergence speed and less synthetic time. The proposed model outperforms the current state-of-the-art methods like SRe$^2$L, TESLA, and MTT by more than 4% Top-1 accuracy on ImageNet-1K/21K and for the first time, reduces the gap to its full-data training counterparts to less than absolute 15%. Moreover, this work represents the inaugural success in dataset distillation on the larger-scale ImageNet-21K dataset under the standard 224$\times$224 resolution. Our code and distilled ImageNet-21K dataset of 20 IPC, 2K recovery budget are available at https://github.com/VILA-Lab/SRe2L/tree/main/CDA.
- Abstract(参考訳): データセットの蒸留や凝縮は、大規模なデータセットから小さいが代表的なサブセットを生成することを目的としている。
従来のSRe$^2$Lのようなデカップリング手法では、ガウスノイズからデータを合成するための統一的な勾配更新スキームを用いるだけで、最初の数回の更新繰り返しで合成の最終的な概要が決定されるので、不適切な勾配更新戦略が最終生成品質に劇的な影響を与える可能性がある。
そこで本研究では,データ合成におけるカリキュラムデータ拡張($\texttt{CDA}$)によって実現可能な,シンプルで効果的なグローバル・ローカルな勾配改善手法を提案する。
提案したフレームワークは,ICC 50 と 36.1% で 63.2% の大規模 ImageNet-1K と 21K の両方で,コンバージェンス速度が速く合成時間も少ない 224$\times$224 の通常の入力解像度を用いて,現在の最大精度を達成している。
提案モデルは、ImageNet-1K/21Kにおいて、SRe$^2$L, TESLA, MTTといった現在の最先端の手法を4%以上の精度で上回り、初めて、フルデータのトレーニング対象に対するギャップを、絶対15%以下に削減する。
さらに、この研究は、224$\times$224の解像度で大規模なImageNet-21Kデータセット上でのデータセット蒸留の初歩的な成功を表している。
コードと蒸留した20 IPCのImageNet-21Kデータセットは、https://github.com/VILA-Lab/SRe2L/tree/main/CDAで利用可能である。
関連論文リスト
- Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching [74.75248610868685]
Teddyは、大規模なデータセットを扱うように設計されたTaylor近似データセット蒸留フレームワークである。
TeddyはTiny-ImageNetとオリジナルサイズのImageNet-1Kデータセット上で、最先端の効率性とパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-10T03:28:46Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective [27.650434284271363]
50 IPC未満では、Tiny-ImageNetとImageNet-1Kデータセットの検証精度が最も高い42.5%と60.8%である。
我々のアプローチは、データ合成中に11.6$times$と6.4$times$のメモリ消費を少なくして、約52$times$ (ConvNet-4) と 16$times$ (ResNet-18) の速度で MTT を超える。
論文 参考訳(メタデータ) (2023-06-22T17:59:58Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Dataset Distillation with Convexified Implicit Gradients [69.16247946639233]
メタ段階更新の計算に暗黙の勾配を効果的に利用できるかを示す。
さらに,凍結した有限幅ニューラルネットワーク上での学習に対応する凸近似をアルゴリズムに装備する。
論文 参考訳(メタデータ) (2023-02-13T23:53:16Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。