論文の概要: DataDAM: Efficient Dataset Distillation with Attention Matching
- arxiv url: http://arxiv.org/abs/2310.00093v2
- Date: Tue, 31 Oct 2023 16:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:39:15.968552
- Title: DataDAM: Efficient Dataset Distillation with Attention Matching
- Title(参考訳): DataDAM: 注意マッチングによる効率的なデータセット蒸留
- Authors: Ahmad Sajedi, Samir Khaki, Ehsan Amjadian, Lucy Z. Liu, Yuri A.
Lawryshyn, Konstantinos N. Plataniotis
- Abstract要約: 研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
- 参考スコア(独自算出の注目度): 15.300968899043498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have long tried to minimize training costs in deep learning while
maintaining strong generalization across diverse datasets. Emerging research on
dataset distillation aims to reduce training costs by creating a small
synthetic set that contains the information of a larger real dataset and
ultimately achieves test accuracy equivalent to a model trained on the whole
dataset. Unfortunately, the synthetic data generated by previous methods are
not guaranteed to distribute and discriminate as well as the original training
data, and they incur significant computational costs. Despite promising
results, there still exists a significant performance gap between models
trained on condensed synthetic sets and those trained on the whole dataset. In
this paper, we address these challenges using efficient Dataset Distillation
with Attention Matching (DataDAM), achieving state-of-the-art performance while
reducing training costs. Specifically, we learn synthetic images by matching
the spatial attention maps of real and synthetic data generated by different
layers within a family of randomly initialized neural networks. Our method
outperforms the prior methods on several datasets, including CIFAR10/100,
TinyImageNet, ImageNet-1K, and subsets of ImageNet-1K across most of the
settings, and achieves improvements of up to 6.5% and 4.1% on CIFAR100 and
ImageNet-1K, respectively. We also show that our high-quality distilled images
have practical benefits for downstream applications, such as continual learning
and neural architecture search.
- Abstract(参考訳): 研究者たちは、さまざまなデータセットにわたる強力な一般化を維持しながら、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセット蒸留に関する新たな研究は、より大きな実データセットの情報を含む小さな合成集合を作成し、最終的にデータセット全体でトレーニングされたモデルに匹敵するテスト精度を達成することで、トレーニングコストを削減することを目的としている。
残念なことに、以前の方法によって生成された合成データは、元のトレーニングデータと同様に分散や判別が保証されておらず、かなりの計算コストがかかる。
有望な結果にもかかわらず、凝縮合成セットでトレーニングされたモデルとデータセット全体でトレーニングされたモデルの間には、依然として大きなパフォーマンスギャップがある。
本稿では,DataDAM(Dataset Distillation with Attention Matching)を用いて,トレーニングコストを削減しつつ,最先端のパフォーマンスを実現する。
具体的には、ランダムに初期化されたニューラルネットワーク群内の異なる層によって生成された実データと合成データの空間的注意マップをマッチングして合成画像を学ぶ。
CIFAR10/100, TinyImageNet, ImageNet-1K, ImageNet-1Kのサブセットなど,多くの設定において従来手法よりも優れており, CIFAR100とImageNet-1Kでは最大6.5%,4.1%の改善が達成されている。
また, 高品質蒸留画像は, 連続学習やニューラルネットワーク検索など, 下流のアプリケーションにも実用的な効果があることを示した。
関連論文リスト
- Curriculum Dataset Distillation [22.938976109450877]
本稿では,スケーラビリティと効率の調和を図るために,カリキュラムベースのデータセット蒸留フレームワークを提案する。
この枠組みは、合成画像を戦略的に蒸留し、単純なものから複雑なものへと遷移するカリキュラムに固執する。
本フレームワークでは,Tiny-ImageNetで11.1%,ImageNet-1Kで9.0%,ImageNet-21Kで7.3%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-15T07:27:14Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。