論文の概要: DREAM: Efficient Dataset Distillation by Representative Matching
- arxiv url: http://arxiv.org/abs/2302.14416v3
- Date: Wed, 30 Aug 2023 14:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 17:30:56.486738
- Title: DREAM: Efficient Dataset Distillation by Representative Matching
- Title(参考訳): DREAM: 代表マッチングによる効率的なデータセット蒸留
- Authors: Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang and Yang You
- Abstract要約: textbfREpresenttextbfAtive textbfMatching (DREAM) による textbfDataset 蒸留と呼ばれる新しいマッチング手法を提案する。
DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。
- 参考スコア(独自算出の注目度): 38.92087223000823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to synthesize small datasets with little
information loss from original large-scale ones for reducing storage and
training costs. Recent state-of-the-art methods mainly constrain the sample
synthesis process by matching synthetic images and the original ones regarding
gradients, embedding distributions, or training trajectories. Although there
are various matching objectives, currently the strategy for selecting original
images is limited to naive random sampling.
We argue that random sampling overlooks the evenness of the selected sample
distribution, which may result in noisy or biased matching targets.
Besides, the sample diversity is also not constrained by random sampling.
These factors together lead to optimization instability in the distilling
process and degrade the training efficiency. Accordingly, we propose a novel
matching strategy named as \textbf{D}ataset distillation by
\textbf{RE}present\textbf{A}tive \textbf{M}atching (DREAM), where only
representative original images are selected for matching. DREAM is able to be
easily plugged into popular dataset distillation frameworks and reduce the
distilling iterations by more than 8 times without performance drop. Given
sufficient training time, DREAM further provides significant improvements and
achieves state-of-the-art performances.
- Abstract(参考訳): データセット蒸留(dataset distillation)は、ストレージとトレーニングコストを削減するために、オリジナルの大規模データセットからの情報損失が少ない小さなデータセットを合成することを目的としている。
最近の技術動向は、主に合成画像と、勾配、埋め込み分布、訓練軌道に関する元の画像とを整合させることで、サンプル合成プロセスを制約している。
マッチング対象は多岐にわたるが、現在ではオリジナル画像の選択戦略はナイーブなランダムサンプリングに限られている。
ランダムサンプリングは選択されたサンプル分布の偶性を見落とし、ノイズや偏りのあるマッチング対象になる可能性がある。
さらに、サンプルの多様性はランダムサンプリングによって制約されない。
これらの要因は蒸留過程における最適化不安定性をもたらし、訓練効率を低下させる。
そこで,本稿では,マッチングのために代表的オリジナル画像のみを選択した,新たなマッチング戦略である \textbf{re}present\textbf{a}tive \textbf{m}atching (dream)を提案する。
DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。
十分なトレーニング時間があれば、dreamはさらに大きな改善を行い、最先端のパフォーマンスを達成します。
関連論文リスト
- DREAM+: Efficient Dataset Distillation by Bidirectional Representative
Matching [40.18223537419178]
本稿では,DREAM+と呼ばれる新しいデータセットマッチング手法を提案する。
DREAM+は、蒸留の繰り返し回数を15回以上減らし、性能に影響を与えない。
十分なトレーニング時間があれば、DREAM+はパフォーマンスをさらに向上し、最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2023-10-23T15:55:30Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Instance Selection for GANs [25.196177369030146]
GAN(Generative Adversarial Networks)は、高品質な合成画像を生成するために広く採用されている。
GANはしばしばデータ多様体の外にある非現実的なサンプルを生成する。
本稿では,サンプルの品質向上のための新しいアプローチを提案する。モデルトレーニングが行われる前に,インスタンス選択によるトレーニングデータセットの変更を行う。
論文 参考訳(メタデータ) (2020-07-30T06:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。