論文の概要: DREAM: Efficient Dataset Distillation by Representative Matching
- arxiv url: http://arxiv.org/abs/2302.14416v1
- Date: Tue, 28 Feb 2023 08:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:19:16.939765
- Title: DREAM: Efficient Dataset Distillation by Representative Matching
- Title(参考訳): DREAM: 代表マッチングによる効率的なデータセット蒸留
- Authors: Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang and Yang You
- Abstract要約: textbfREpresenttextbfAtive textbfMatching (DREAM) による textbfDataset 蒸留と呼ばれる新しいマッチング手法を提案する。
DREAMは一般的なデータセット蒸留フレームワークに簡単にプラグインでき、パフォーマンス低下なしにマッチングイテレーションを10倍削減できる。
- 参考スコア(独自算出の注目度): 24.18078774412298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to generate small datasets with little information
loss as large-scale datasets for reducing storage and training costs. Recent
state-of-the-art methods mainly constrain the sample generation process by
matching synthetic images and the original ones regarding gradients, embedding
distributions, or training trajectories. Although there are various matching
objectives, currently the method for selecting original images is limited to
naive random sampling. We argue that random sampling inevitably involves
samples near the decision boundaries, which may provide large or noisy matching
targets. Besides, random sampling cannot guarantee the evenness and diversity
of the sample distribution. These factors together lead to large optimization
oscillations and degrade the matching efficiency. Accordingly, we propose a
novel matching strategy named as \textbf{D}ataset distillation by
\textbf{RE}present\textbf{A}tive \textbf{M}atching (DREAM), where only
representative original images are selected for matching. DREAM is able to be
easily plugged into popular dataset distillation frameworks and reduce the
matching iterations by 10 times without performance drop. Given sufficient
training time, DREAM further provides significant improvements and achieves
state-of-the-art performances.
- Abstract(参考訳): データセット蒸留は、ストレージとトレーニングコストを削減するための大規模なデータセットとして、情報損失の少ない小さなデータセットを生成することを目的としている。
近年の最先端手法は, 合成画像と, 勾配, 埋め込み分布, 訓練軌道に関する原画像とをマッチングすることにより, 試料生成過程を制約している。
マッチング対象は多種多様であるが、現在では原画像の選び方はナイーブなランダムサンプリングに限られている。
ランダムサンプリングには必然的に決定境界付近のサンプルが含まれており、大きなあるいはノイズの多いマッチングターゲットを提供する可能性がある。
さらに、ランダムサンプリングはサンプル分布の均一性と多様性を保証できない。
これらの要因が組み合わさって大きな最適化振動を引き起こし、マッチング効率を低下させる。
そこで,本稿では,マッチングのために代表的オリジナル画像のみを選択した,新たなマッチング戦略である \textbf{re}present\textbf{a}tive \textbf{m}atching (dream)を提案する。
DREAMは一般的なデータセット蒸留フレームワークに簡単にプラグインでき、パフォーマンス低下なしにマッチングイテレーションを10倍削減できる。
十分なトレーニング時間があれば、dreamはさらに大きな改善を行い、最先端のパフォーマンスを達成します。
関連論文リスト
- DREAM+: Efficient Dataset Distillation by Bidirectional Representative
Matching [40.18223537419178]
本稿では,DREAM+と呼ばれる新しいデータセットマッチング手法を提案する。
DREAM+は、蒸留の繰り返し回数を15回以上減らし、性能に影響を与えない。
十分なトレーニング時間があれば、DREAM+はパフォーマンスをさらに向上し、最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2023-10-23T15:55:30Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Instance Selection for GANs [25.196177369030146]
GAN(Generative Adversarial Networks)は、高品質な合成画像を生成するために広く採用されている。
GANはしばしばデータ多様体の外にある非現実的なサンプルを生成する。
本稿では,サンプルの品質向上のための新しいアプローチを提案する。モデルトレーニングが行われる前に,インスタンス選択によるトレーニングデータセットの変更を行う。
論文 参考訳(メタデータ) (2020-07-30T06:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。