論文の概要: Dataset Distillation in Large Data Era
- arxiv url: http://arxiv.org/abs/2311.18838v1
- Date: Thu, 30 Nov 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:02:23.305817
- Title: Dataset Distillation in Large Data Era
- Title(参考訳): 大規模データ時代のデータセット蒸留
- Authors: Zeyuan Yin and Zhiqiang Shen
- Abstract要約: 従来の224$times$224の入力解像度で、フルイメージNet-1K/21Kなどの大規模データセットを蒸留する方法を示す。
提案手法は,ImageNet-1K/21Kにおいて,現在の最先端技術よりも4%以上精度が高いことを示す。
- 参考スコア(独自算出の注目度): 31.758821805424393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to generate a smaller but representative subset
from a large dataset, which allows a model to be trained efficiently, meanwhile
evaluating on the original testing data distribution to achieve decent
performance. Many prior works have aimed to align with diverse aspects of the
original datasets, such as matching the training weight trajectories, gradient,
feature/BatchNorm distributions, etc. In this work, we show how to distill
various large-scale datasets such as full ImageNet-1K/21K under a conventional
input resolution of 224$\times$224 to achieve the best accuracy over all
previous approaches, including SRe$^2$L, TESLA and MTT. To achieve this, we
introduce a simple yet effective ${\bf C}$urriculum ${\bf D}$ata ${\bf
A}$ugmentation ($\texttt{CDA}$) during data synthesis that obtains the accuracy
on large-scale ImageNet-1K and 21K with 63.2% under IPC (Images Per Class) 50
and 36.1% under IPC 20, respectively. Finally, we show that, by integrating all
our enhancements together, the proposed model beats the current
state-of-the-art by more than 4% Top-1 accuracy on ImageNet-1K/21K and for the
first time, reduces the gap to its full-data training counterpart to less than
absolute 15%. Moreover, this work represents the inaugural success in dataset
distillation on larger-scale ImageNet-21K under the standard 224$\times$224
resolution. Our code and distilled ImageNet-21K dataset of 20 IPC, 2K recovery
budget are available at https://github.com/VILA-Lab/SRe2L/tree/main/CDA.
- Abstract(参考訳): データセット蒸留(dataset distillation)は、大規模なデータセットから小さなが代表的なサブセットを生成することを目的としている。
以前の多くの作業は、トレーニングウェイトトラジェクトリ、勾配、フィーチャー/バッチノーム分布など、オリジナルのデータセットのさまざまな側面と整合することを目的としていた。
本研究では,従来の入力解像度である224$\times$224で,sre$^2$l, tesla, mttなど,従来のアプローチよりも高い精度を実現するために,フルimagenet-1k/21kなどの大規模データセットを蒸留する方法を示す。
そこで本研究では,大規模画像Net-1K と 21K の精度を IPC (Images Per Class) 50 で 63.2% と IPC (Images Per Class) 50 で,36.1% の精度で取得したデータ合成における${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) を導入する。
最後に、すべての強化を統合することで、提案モデルがimagenet-1k/21kの現在のtop-1精度を4%以上上回り、初めてフルデータのトレーニング対象とのギャップを絶対15%未満に削減できることを示します。
さらに、この研究は、224$\times$224の解像度で大規模なImageNet-21K上でのデータセット蒸留の初歩的な成功を表している。
コードと20 IPCのImageNet-21Kデータセットは,https://github.com/VILA-Lab/SRe2L/tree/main/CDAで公開されている。
関連論文リスト
- Distributional Dataset Distillation with Subtask Decomposition [18.288856447840303]
本稿では,TinyImageNet と ImageNet-1K のデータセットに対して,最新の結果が得られることを示す。
具体的には、クラス毎に2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9%の先行技術より優れています。
論文 参考訳(メタデータ) (2024-03-01T21:49:34Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching [24.45182507244476]
Generalized Various Backbone and Statistical Matching (G-VBSM) は、小規模なデータセットと大規模データセットの両方で高い性能を得るアルゴリズムである。
G-VBSMは、CIFAR-100で38.7%、128インチのConvNetで47.6%、ResNet18でTiny-ImageNetで47.6%、ResNet18で224x224 ImageNet-1kで31.4%のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-29T06:25:59Z) - Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective [27.650434284271363]
50 IPC未満では、Tiny-ImageNetとImageNet-1Kデータセットの検証精度が最も高い42.5%と60.8%である。
我々のアプローチは、データ合成中に11.6$times$と6.4$times$のメモリ消費を少なくして、約52$times$ (ConvNet-4) と 16$times$ (ResNet-18) の速度で MTT を超える。
論文 参考訳(メタデータ) (2023-06-22T17:59:58Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。