論文の概要: Dataset Distillation in Large Data Era
- arxiv url: http://arxiv.org/abs/2311.18838v1
- Date: Thu, 30 Nov 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:02:23.305817
- Title: Dataset Distillation in Large Data Era
- Title(参考訳): 大規模データ時代のデータセット蒸留
- Authors: Zeyuan Yin and Zhiqiang Shen
- Abstract要約: 従来の224$times$224の入力解像度で、フルイメージNet-1K/21Kなどの大規模データセットを蒸留する方法を示す。
提案手法は,ImageNet-1K/21Kにおいて,現在の最先端技術よりも4%以上精度が高いことを示す。
- 参考スコア(独自算出の注目度): 31.758821805424393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to generate a smaller but representative subset
from a large dataset, which allows a model to be trained efficiently, meanwhile
evaluating on the original testing data distribution to achieve decent
performance. Many prior works have aimed to align with diverse aspects of the
original datasets, such as matching the training weight trajectories, gradient,
feature/BatchNorm distributions, etc. In this work, we show how to distill
various large-scale datasets such as full ImageNet-1K/21K under a conventional
input resolution of 224$\times$224 to achieve the best accuracy over all
previous approaches, including SRe$^2$L, TESLA and MTT. To achieve this, we
introduce a simple yet effective ${\bf C}$urriculum ${\bf D}$ata ${\bf
A}$ugmentation ($\texttt{CDA}$) during data synthesis that obtains the accuracy
on large-scale ImageNet-1K and 21K with 63.2% under IPC (Images Per Class) 50
and 36.1% under IPC 20, respectively. Finally, we show that, by integrating all
our enhancements together, the proposed model beats the current
state-of-the-art by more than 4% Top-1 accuracy on ImageNet-1K/21K and for the
first time, reduces the gap to its full-data training counterpart to less than
absolute 15%. Moreover, this work represents the inaugural success in dataset
distillation on larger-scale ImageNet-21K under the standard 224$\times$224
resolution. Our code and distilled ImageNet-21K dataset of 20 IPC, 2K recovery
budget are available at https://github.com/VILA-Lab/SRe2L/tree/main/CDA.
- Abstract(参考訳): データセット蒸留(dataset distillation)は、大規模なデータセットから小さなが代表的なサブセットを生成することを目的としている。
以前の多くの作業は、トレーニングウェイトトラジェクトリ、勾配、フィーチャー/バッチノーム分布など、オリジナルのデータセットのさまざまな側面と整合することを目的としていた。
本研究では,従来の入力解像度である224$\times$224で,sre$^2$l, tesla, mttなど,従来のアプローチよりも高い精度を実現するために,フルimagenet-1k/21kなどの大規模データセットを蒸留する方法を示す。
そこで本研究では,大規模画像Net-1K と 21K の精度を IPC (Images Per Class) 50 で 63.2% と IPC (Images Per Class) 50 で,36.1% の精度で取得したデータ合成における${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) を導入する。
最後に、すべての強化を統合することで、提案モデルがimagenet-1k/21kの現在のtop-1精度を4%以上上回り、初めてフルデータのトレーニング対象とのギャップを絶対15%未満に削減できることを示します。
さらに、この研究は、224$\times$224の解像度で大規模なImageNet-21K上でのデータセット蒸留の初歩的な成功を表している。
コードと20 IPCのImageNet-21Kデータセットは,https://github.com/VILA-Lab/SRe2L/tree/main/CDAで公開されている。
関連論文リスト
- Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching [74.75248610868685]
Teddyは、大規模なデータセットを扱うように設計されたTaylor近似データセット蒸留フレームワークである。
TeddyはTiny-ImageNetとオリジナルサイズのImageNet-1Kデータセット上で、最先端の効率性とパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-10T03:28:46Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective [27.650434284271363]
50 IPC未満では、Tiny-ImageNetとImageNet-1Kデータセットの検証精度が最も高い42.5%と60.8%である。
我々のアプローチは、データ合成中に11.6$times$と6.4$times$のメモリ消費を少なくして、約52$times$ (ConvNet-4) と 16$times$ (ResNet-18) の速度で MTT を超える。
論文 参考訳(メタデータ) (2023-06-22T17:59:58Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Dataset Distillation with Convexified Implicit Gradients [69.16247946639233]
メタ段階更新の計算に暗黙の勾配を効果的に利用できるかを示す。
さらに,凍結した有限幅ニューラルネットワーク上での学習に対応する凸近似をアルゴリズムに装備する。
論文 参考訳(メタデータ) (2023-02-13T23:53:16Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。