論文の概要: The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions
- arxiv url: http://arxiv.org/abs/2502.05673v1
- Date: Sat, 08 Feb 2025 19:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:09.522835
- Title: The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions
- Title(参考訳): データセット蒸留の進化--スケーラブルで一般化可能な解を目指して
- Authors: Ping Liu, Jiawei Du,
- Abstract要約: この調査は、データセット蒸留の最近の進歩を包括的にレビューする。
我々は、ImageNet-1KやImageNet-21Kのような大規模データセットへのスケーリングに注力する。
効率的かつ効果的な凝縮のためのSRe2Lフレームワークを含む、画期的なイノベーションを強調します。
また、ビデオおよびオーディオ処理、マルチモーダル学習、医用画像、科学計算における新しい応用についても検討する。
- 参考スコア(独自算出の注目度): 9.622221492744496
- License:
- Abstract: Dataset distillation, which condenses large-scale datasets into compact synthetic representations, has emerged as a critical solution for training modern deep learning models efficiently. While prior surveys focus on developments before 2023, this work comprehensively reviews recent advances, emphasizing scalability to large-scale datasets such as ImageNet-1K and ImageNet-21K. We categorize progress into a few key methodologies: trajectory matching, gradient matching, distribution matching, scalable generative approaches, and decoupling optimization mechanisms. As a comprehensive examination of recent dataset distillation advances, this survey highlights breakthrough innovations: the SRe2L framework for efficient and effective condensation, soft label strategies that significantly enhance model accuracy, and lossless distillation techniques that maximize compression while maintaining performance. Beyond these methodological advancements, we address critical challenges, including robustness against adversarial and backdoor attacks, effective handling of non-IID data distributions. Additionally, we explore emerging applications in video and audio processing, multi-modal learning, medical imaging, and scientific computing, highlighting its domain versatility. By offering extensive performance comparisons and actionable research directions, this survey equips researchers and practitioners with practical insights to advance efficient and generalizable dataset distillation, paving the way for future innovations.
- Abstract(参考訳): 大規模データセットをコンパクトな合成表現に凝縮するデータセット蒸留は、現代のディープラーニングモデルを効率的に訓練するための重要なソリューションとして登場した。
以前の調査は2023年以前の開発に焦点を当てていたが、この研究は最近の進歩を包括的にレビューし、ImageNet-1KやImageNet-21Kのような大規模データセットへのスケーラビリティを強調した。
進行過程を,軌道整合性,勾配整合性,分布整合性,拡張性のある生成手法,疎結合最適化機構の2つに分類する。
近年のデータセット蒸留技術の総合的な検討として, 効率的かつ効果的な凝縮のためのSRe2Lフレームワーク, モデルの精度を著しく向上するソフトラベル戦略, 性能を維持しながら圧縮を最大化するロスレス蒸留技術など, 画期的なイノベーションが注目されている。
これらの方法論の進歩に加えて、敵やバックドア攻撃に対する堅牢性、非IIDデータ分散の効果的処理など、重要な課題に対処する。
さらに、ビデオおよびオーディオ処理、マルチモーダル学習、医用画像、科学計算における新しい応用を探求し、その領域の汎用性を強調した。
この調査は、広範な性能比較と実用的な研究の方向性を提供することで、研究者や実践者に実践的な洞察を与え、効率的で一般化可能なデータセット蒸留を推進し、将来のイノベーションへの道を開く。
関連論文リスト
- Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation [18.474302012851087]
そこで本研究では,データセット蒸留のための2段階の解法を提案する。
まず、最も情報性の高いパッチのみを選択して、コアセットを形成することでデータセットを圧縮する。
次に、この圧縮された集合をリアルタイムで動的に拡張するために、生成基礎モデルを活用する。
いくつかの大規模データセット蒸留ベンチマークでは,最先端技術と比較して10%以上の顕著な改善がみられた。
論文 参考訳(メタデータ) (2024-12-05T23:40:27Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。