論文の概要: Beyond Dataset Distillation: Lossless Dataset Concentration via Diffusion-Assisted Distribution Alignment
- arxiv url: http://arxiv.org/abs/2603.27987v1
- Date: Mon, 30 Mar 2026 03:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.208398
- Title: Beyond Dataset Distillation: Lossless Dataset Concentration via Diffusion-Assisted Distribution Alignment
- Title(参考訳): データセット蒸留を超える:拡散支援分布アライメントによるロスレスデータセット濃度
- Authors: Tongfei Liu, Yufan Liu, Bing Li, Weiming Hu,
- Abstract要約: 拡散型雑音最適化法 (N) を提案し, 小さいが代表的なサンプル集合を合成し, "Opt" を用いて合成データを拡張した。
DsCoはデータアクセシビリティとデータフリーの両方のシナリオに適用可能で、低データボリュームのSOTAパフォーマンスを実現し、高いデータボリュームまで十分に拡張できます。
- 参考スコア(独自算出の注目度): 43.678155518039745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high cost and accessibility problem associated with large datasets hinder the development of large-scale visual recognition systems. Dataset Distillation addresses these problems by synthesizing compact surrogate datasets for efficient training, storage, transfer, and privacy preservation. The existing state-of-the-art diffusion-based dataset distillation methods face three issues: lack of theoretical justification, poor efficiency in scaling to high data volumes, and failure in data-free scenarios. To address these issues, we establish a theoretical framework that justifies the use of diffusion models by proving the equivalence between dataset distillation and distribution matching, and reveals an inherent efficiency limit in the dataset distillation paradigm. We then propose a Dataset Concentration (DsCo) framework that uses a diffusion-based Noise-Optimization (NOpt) method to synthesize a small yet representative set of samples, and optionally augments the synthetic data via "Doping", which mixes selected samples from the original dataset with the synthetic samples to overcome the efficiency limit of dataset distillation. DsCo is applicable in both data-accessible and data-free scenarios, achieving SOTA performances for low data volumes, and it extends well to high data volumes, where it nearly reduces the dataset size by half with no performance degradation.
- Abstract(参考訳): 大規模なデータセットに関連する高コストとアクセシビリティの問題は、大規模な視覚認識システムの開発を妨げている。
Dataset Distillationは、効率的なトレーニング、ストレージ、転送、プライバシ保護のために、コンパクトなサロゲートデータセットを合成することによって、これらの問題に対処する。
既存の最先端拡散に基づくデータセット蒸留法では、理論的正当化の欠如、データボリュームへのスケーリング効率の低下、データフリーシナリオの失敗という3つの問題に直面している。
これらの問題に対処するため、データセット蒸留と分布マッチングの等価性を証明し、拡散モデルの使用を正当化する理論的枠組みを確立し、データセット蒸留パラダイムに固有の効率限界を明らかにする。
次に、拡散に基づくノイズ最適化(NOpt)法を用いて、小さいが代表的なサンプル集合を合成し、元のデータセットから選択されたサンプルと合成サンプルを混合して、データセット蒸留の効率限界を克服する「ドーピング」により、任意の合成データを拡張するデータセット集中(DsCo)フレームワークを提案する。
DsCoはデータアクセシビリティとデータフリーの両方のシナリオに適用可能で、低データボリュームのSOTAパフォーマンスを実現し、高いデータボリュームまで十分に拡張できます。
関連論文リスト
- IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation [41.83834685276882]
近年,拡散型データセット蒸留法は,拡散モデルの強い生成能力を活用し,多様で構造的に一貫した試料を生成することにより,大きな期待を抱いている。
Inversion-Matching (IM)は、インバージョン誘導による微調整プロセスを導入し、軌道をインバージョンと整列させ、分布範囲を広げ、多様性を高める。
Selective Subgroup Sampling(S3)は、クラス間分離性を改善するためのトレーニング不要なサンプリングメカニズムである。
論文 参考訳(メタデータ) (2026-03-14T14:15:03Z) - Diffusion Models as Dataset Distillation Priors [39.4727398182562]
本稿では,特徴空間における合成データと実データとの類似性を定量化し,代表性を定式化するAs Diffusion Priors (DAP)を提案する。
DAPは、高忠実度データセットを生成する上で、最先端の手法よりも優れています。
我々の研究は、拡散先行とデータセット蒸留の目的との理論的関係を確立する。
論文 参考訳(メタデータ) (2025-10-20T11:04:09Z) - Taming Diffusion for Dataset Distillation with High Representativeness [49.3818035378669]
D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。
我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-05-23T22:05:59Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。