論文の概要: DREAM+: Efficient Dataset Distillation by Bidirectional Representative
Matching
- arxiv url: http://arxiv.org/abs/2310.15052v1
- Date: Mon, 23 Oct 2023 15:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:57:12.080353
- Title: DREAM+: Efficient Dataset Distillation by Bidirectional Representative
Matching
- Title(参考訳): DREAM+:双方向代表マッチングによる効率的なデータセット蒸留
- Authors: Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Kaipeng Zhang, Wei
Jiang and Yang You
- Abstract要約: 本稿では,DREAM+と呼ばれる新しいデータセットマッチング手法を提案する。
DREAM+は、蒸留の繰り返し回数を15回以上減らし、性能に影響を与えない。
十分なトレーニング時間があれば、DREAM+はパフォーマンスをさらに向上し、最先端の結果を得ることができる。
- 参考スコア(独自算出の注目度): 40.18223537419178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation plays a crucial role in creating compact datasets with
similar training performance compared with original large-scale ones. This is
essential for addressing the challenges of data storage and training costs.
Prevalent methods facilitate knowledge transfer by matching the gradients,
embedding distributions, or training trajectories of synthetic images with
those of the sampled original images. Although there are various matching
objectives, currently the strategy for selecting original images is limited to
naive random sampling. We argue that random sampling overlooks the evenness of
the selected sample distribution, which may result in noisy or biased matching
targets. Besides, the sample diversity is also not constrained by random
sampling. Additionally, current methods predominantly focus on
single-dimensional matching, where information is not fully utilized. To
address these challenges, we propose a novel matching strategy called Dataset
Distillation by Bidirectional REpresentAtive Matching (DREAM+), which selects
representative original images for bidirectional matching. DREAM+ is applicable
to a variety of mainstream dataset distillation frameworks and significantly
reduces the number of distillation iterations by more than 15 times without
affecting performance. Given sufficient training time, DREAM+ can further
improve the performance and achieve state-of-the-art results. We have released
the code at github.com/NUS-HPC-AI-Lab/DREAM+.
- Abstract(参考訳): データセットの蒸留は、従来の大規模データセットと同じような訓練性能を持つコンパクトデータセットを作成する上で重要な役割を果たす。
これは、データストレージとトレーニングコストの課題に対処するのに不可欠です。
一般的な手法は、画像の勾配、埋め込み分布、あるいは合成画像の訓練軌跡をサンプル画像と一致させることで知識伝達を促進する。
マッチング対象は多岐にわたるが、現在ではオリジナル画像の選択戦略はナイーブなランダムサンプリングに限られている。
ランダムサンプリングは選択されたサンプル分布の偶性を見落とし、ノイズや偏りのあるマッチング対象になる可能性がある。
さらに、サンプルの多様性はランダムサンプリングによって制約されない。
さらに、現在の手法は情報を完全に活用していない一次元マッチングに重点を置いている。
これらの課題に対処するために,双方向代表マッチング(dream+)によるデータセット蒸留と呼ばれる,双方向マッチングのための代表オリジナル画像を選択する新しいマッチング戦略を提案する。
dream+は、様々なメインストリームのデータセット蒸留フレームワークに適用でき、性能に影響を与えることなく、蒸留イテレーションの回数を15回以上削減できる。
十分なトレーニング時間があれば、DREAM+はパフォーマンスをさらに向上し、最先端の結果を得ることができる。
我々はgithub.com/NUS-HPC-AI-Lab/DREAM+でコードを公開しました。
関連論文リスト
- Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis [0.38073142980733]
我々は、サンプル合成のための複数の画像をモデル化するために、単一画像GAN法を拡張した。
我々のデータ効率GAN(DEff-GAN)は、入力画像やクラス間で類似性や対応性を引き出すことができる場合に優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T12:43:52Z) - DREAM: Efficient Dataset Distillation by Representative Matching [38.92087223000823]
textbfREpresenttextbfAtive textbfMatching (DREAM) による textbfDataset 蒸留と呼ばれる新しいマッチング手法を提案する。
DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。
論文 参考訳(メタデータ) (2023-02-28T08:48:45Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Sample selection for efficient image annotation [14.695979686066066]
監視対象検出は、人間レベルのパフォーマンスを達成する多くのベンチマークデータセットで成功したことが証明されている。
ラベルなしデータセットから最も有益な画像をサンプリングする効率的な画像選択手法を提案する。
本手法は,完全な手動ラベリング設定と比較して,手動アノテーション作業の最大80%を削減でき,ランダムサンプリングよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-05-10T21:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。