論文の概要: IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation
- arxiv url: http://arxiv.org/abs/2603.13960v1
- Date: Sat, 14 Mar 2026 14:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.509129
- Title: IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation
- Title(参考訳): IMS3:拡散型データセット蒸留における分布凝集の破壊
- Authors: Chenru Wang, Yunyi Chen, Zijun Yang, Joey Tianyi Zhou, Chi Zhang,
- Abstract要約: 近年,拡散型データセット蒸留法は,拡散モデルの強い生成能力を活用し,多様で構造的に一貫した試料を生成することにより,大きな期待を抱いている。
Inversion-Matching (IM)は、インバージョン誘導による微調整プロセスを導入し、軌道をインバージョンと整列させ、分布範囲を広げ、多様性を高める。
Selective Subgroup Sampling(S3)は、クラス間分離性を改善するためのトレーニング不要なサンプリングメカニズムである。
- 参考スコア(独自算出の注目度): 41.83834685276882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Distillation aims to synthesize compact datasets that can approximate the training efficacy of large-scale real datasets, offering an efficient solution to the increasing computational demands of modern deep learning. Recently, diffusion-based dataset distillation methods have shown great promise by leveraging the strong generative capacity of diffusion models to produce diverse and structurally consistent samples. However, a fundamental goal misalignment persists: diffusion models are optimized for generative likelihood rather than discriminative utility, resulting in over-concentration in high-density regions and inadequate coverage of boundary samples crucial for classification. To address this issue, we propose two complementary strategies. Inversion-Matching (IM) introduces an inversion-guided fine-tuning process that aligns denoising trajectories with their inversion counterparts, broadening distributional coverage and enhancing diversity. Selective Subgroup Sampling(S^3) is a training-free sampling mechanism that improves inter-class separability by selecting synthetic subsets that are both representative and distinctive. Extensive experiments demonstrate that our approach significantly enhances the discriminative quality and generalization of distilled datasets, achieving state-of-the-art performance among diffusion-based methods.
- Abstract(参考訳): Dataset Distillationは、大規模な実データセットのトレーニング効率を近似できるコンパクトデータセットを合成することを目的としており、現代のディープラーニングの計算要求の増加に対する効率的なソリューションを提供する。
近年,拡散型データセット蒸留法は,拡散モデルの強い生成能力を活用し,多様で構造的に一貫した試料を生成することにより,大きな期待を抱いている。
拡散モデルは差別的ユーティリティよりも生成可能性に最適化され、高密度領域では過度に集中し、分類に不可欠な境界サンプルのカバーが不十分になる。
この問題に対処するため,我々は2つの補完戦略を提案する。
Inversion-Matching (IM)は、インバージョン誘導による微調整プロセスを導入し、軌道をインバージョンと整列させ、分布範囲を広げ、多様性を高める。
選択的サブグループサンプリング(S^3)は、クラス間分離性を改善するための訓練不要なサンプリング機構であり、代表的かつ独特な合成部分集合を選択する。
大規模実験により, 蒸留データセットの識別品質と一般化が著しく向上し, 拡散法における最先端性能が向上することが確認された。
関連論文リスト
- Diffusion Models as Dataset Distillation Priors [39.4727398182562]
本稿では,特徴空間における合成データと実データとの類似性を定量化し,代表性を定式化するAs Diffusion Priors (DAP)を提案する。
DAPは、高忠実度データセットを生成する上で、最先端の手法よりも優れています。
我々の研究は、拡散先行とデータセット蒸留の目的との理論的関係を確立する。
論文 参考訳(メタデータ) (2025-10-20T11:04:09Z) - Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification [0.0]
ラベル一貫性を持つサンプルを生成するために,クラス条件記述拡散確率モデル(DDPM)を実装した。
私たちは、Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて、実際のデータとの統合を検討します。
本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-05-28T22:58:50Z) - Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory [33.38900857290244]
この問題を解決するために,拡散モデルに基づく多様性駆動型生成データセット蒸留法を提案する。
蒸留されたデータセットと実際のデータセットの分布を一致させる自己適応メモリを導入し、代表性を評価する。
我々の手法は、ほとんどの状況で既存の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-26T03:48:56Z) - Taming Diffusion for Dataset Distillation with High Representativeness [49.3818035378669]
D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。
我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-05-23T22:05:59Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Diffusion Models as Constrained Samplers for Optimization with Unknown Constraints [55.39203337683045]
拡散モデルを用いてデータ多様体内で最適化を行う。
目的関数の微分可能性に応じて,2つの異なるサンプリング手法を提案する。
提案手法は,従来の最先端のベースラインよりも優れた,あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-28T03:09:12Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Dataset Distillation via the Wasserstein Metric [34.06251608504682]
We introduced WMDD (Wasserstein Metric-based dataset Distillation), which is simple but powerful method that using the Wasserstein metric to enhance distribution matching。
我々の実験は、WMDDの有効性と適応性を実証し、大規模に機械学習アプリケーションを前進させる可能性を強調した。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。