論文の概要: On the Diversity and Realism of Distilled Dataset: An Efficient Dataset
Distillation Paradigm
- arxiv url: http://arxiv.org/abs/2312.03526v1
- Date: Wed, 6 Dec 2023 14:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:32:35.456156
- Title: On the Diversity and Realism of Distilled Dataset: An Efficient Dataset
Distillation Paradigm
- Title(参考訳): 蒸留データセットの多様性と現実性:効率的な蒸留パラダイム
- Authors: Peng Sun, Bei Shi, Daiwei Yu, Tao Lin
- Abstract要約: 蒸留データの多様性とリアリズムを両立させるRDEDを提案する。
完全なImageNet-1Kを7分以内で、クラス毎に10の画像からなる小さなデータセットに抽出し、注目すべき42%のトップ1精度を実現する。
- 参考スコア(独自算出の注目度): 8.980314998140507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary machine learning requires training large neural networks on
massive datasets and thus faces the challenges of high computational demands.
Dataset distillation, as a recent emerging strategy, aims to compress
real-world datasets for efficient training. However, this line of research
currently struggle with large-scale and high-resolution datasets, hindering its
practicality and feasibility. To this end, we re-examine the existing dataset
distillation methods and identify three properties required for large-scale
real-world applications, namely, realism, diversity, and efficiency. As a
remedy, we propose RDED, a novel computationally-efficient yet effective data
distillation paradigm, to enable both diversity and realism of the distilled
data. Extensive empirical results over various neural architectures and
datasets demonstrate the advancement of RDED: we can distill the full
ImageNet-1K to a small dataset comprising 10 images per class within 7 minutes,
achieving a notable 42% top-1 accuracy with ResNet-18 on a single RTX-4090 GPU
(while the SOTA only achieves 21% but requires 6 hours).
- Abstract(参考訳): 現代の機械学習では、大規模なデータセット上で大規模ニューラルネットワークをトレーニングする必要があるため、高い計算要求の課題に直面する。
最近の新興戦略であるデータセット蒸留は、効率的なトレーニングのために現実世界のデータセットを圧縮することを目的としている。
しかし、この一連の研究は大規模で高解像度なデータセットに苦しめられ、その実用性と実現性を妨げている。
この目的のため、既存のデータセット蒸留法を再検討し、大規模な実世界のアプリケーションに必要な3つの特性、すなわちリアリズム、多様性、効率性を特定する。
そこで,我々はrdedを提案する。rdedは計算効率が高く効率的なデータ蒸留パラダイムであり,蒸留データの多様性とリアリズムを両立させる。
1つのrtx-4090 gpu上でresnet-18で注目すべき42%のtop-1精度を達成した(sotaは21%しか達成していないが、6時間を要する)。
関連論文リスト
- Data-to-Model Distillation: Data-Efficient Learning Framework [14.44010988811002]
本稿では,データ・ツー・モデル蒸留(Data-to-Model Distillation, D2M)と呼ばれる新しいフレームワークを提案する。
提案手法は,高解像度の128x128 ImageNet-1Kまで効果的にスケールアップする。
論文 参考訳(メタデータ) (2024-11-19T20:10:28Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。