論文の概要: Sequential Subset Matching for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2311.01570v1
- Date: Thu, 2 Nov 2023 19:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:01:54.185021
- Title: Sequential Subset Matching for Dataset Distillation
- Title(参考訳): データセット蒸留のための逐次サブセットマッチング
- Authors: Jiawei Du, Qin Shi, Joey Tianyi Zhou
- Abstract要約: 我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
- 参考スコア(独自算出の注目度): 44.322842898670565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation is a newly emerging task that synthesizes a small-size
dataset used in training deep neural networks (DNNs) for reducing data storage
and model training costs. The synthetic datasets are expected to capture the
essence of the knowledge contained in real-world datasets such that the former
yields a similar performance as the latter. Recent advancements in distillation
methods have produced notable improvements in generating synthetic datasets.
However, current state-of-the-art methods treat the entire synthetic dataset as
a unified entity and optimize each synthetic instance equally. This static
optimization approach may lead to performance degradation in dataset
distillation. Specifically, we argue that static optimization can give rise to
a coupling issue within the synthetic data, particularly when a larger amount
of synthetic data is being optimized. This coupling issue, in turn, leads to
the failure of the distilled dataset to extract the high-level features learned
by the deep neural network (DNN) in the latter epochs.
In this study, we propose a new dataset distillation strategy called
Sequential Subset Matching (SeqMatch), which tackles this problem by adaptively
optimizing the synthetic data to encourage sequential acquisition of knowledge
during dataset distillation. Our analysis indicates that SeqMatch effectively
addresses the coupling issue by sequentially generating the synthetic
instances, thereby enhancing its performance significantly. Our proposed
SeqMatch outperforms state-of-the-art methods in various datasets, including
SVNH, CIFAR-10, CIFAR-100, and Tiny ImageNet. Our code is available at
https://github.com/shqii1j/seqmatch.
- Abstract(参考訳): データセットの蒸留は、データストレージの削減とモデルのトレーニングコストの削減のために、ディープニューラルネットワーク(DNN)のトレーニングに使用される小さなデータセットを合成する、新たなタスクである。
合成データセットは、実世界のデータセットに含まれる知識の本質をキャプチャし、前者が後者と同様のパフォーマンスが得られることが期待される。
近年の蒸留法の進歩は、合成データセットの生成に顕著な改善をもたらした。
しかし、現在の最先端の手法では、合成データセット全体を統一エンティティとして扱い、各合成インスタンスを等しく最適化する。
この静的最適化アプローチは、データセット蒸留の性能劣化につながる可能性がある。
具体的には、特に大量の合成データが最適化されている場合、静的な最適化は合成データ内のカップリング問題を引き起こす可能性があると論じる。
この結合問題は、後に深層ニューラルネットワーク(dnn)によって学習された高レベルな特徴を抽出するために蒸留データセットが故障する原因となる。
本研究では,データセット蒸留における知識の逐次獲得を促進するために,合成データを適応的に最適化することでこの問題に対処するSeqMatchと呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで結合問題を効果的に解決し,性能を著しく向上した。
提案するSeqMatchは,SVNH, CIFAR-10, CIFAR-100, Tiny ImageNetなど,様々なデータセットで最先端の手法より優れている。
私たちのコードはhttps://github.com/shqii1j/seqmatchで利用可能です。
関連論文リスト
- Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching [19.8751746334929]
合成データセットのサイズが大きくなるにつれて有効なアルゴリズムを提案する。
実験により, 一致する軌道の訓練段階が, 蒸留データセットの有効性に大きく影響していることが判明した。
そこで我々は,軌道マッチングに基づく手法を大規模合成データセットに拡張することに成功している。
論文 参考訳(メタデータ) (2023-10-09T14:57:41Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。