論文の概要: CaO$_2$: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation
- arxiv url: http://arxiv.org/abs/2506.22637v1
- Date: Fri, 27 Jun 2025 21:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.493804
- Title: CaO$_2$: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation
- Title(参考訳): CaO$_2$:拡散型データセット蒸留における不整合の是正
- Authors: Haoxuan Wang, Zhenghao Zhao, Junyi Wu, Yuzhang Shang, Gaowen Liu, Yan Yan,
- Abstract要約: 拡散に基づくデータセット蒸留は, 評価プロセスを見落とし, 蒸留プロセスにおける2つの重要な矛盾を示す。
本稿では, 蒸留プロセスと評価目標を整合させる2段階拡散に基づくフレームワークであるCaO$(Condition-Aware with Objective-Guided Smpling Optimization)を紹介する。
CaO$はImageNetとそのサブセットの最先端のパフォーマンスを達成し、平均2.3%の精度で最高のパフォーマンスのベースラインを超えた。
- 参考スコア(独自算出の注目度): 13.232734581362177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent introduction of diffusion models in dataset distillation has shown promising potential in creating compact surrogate datasets for large, high-resolution target datasets, offering improved efficiency and performance over traditional bi-level/uni-level optimization methods. However, current diffusion-based dataset distillation approaches overlook the evaluation process and exhibit two critical inconsistencies in the distillation process: (1) Objective Inconsistency, where the distillation process diverges from the evaluation objective, and (2) Condition Inconsistency, leading to mismatches between generated images and their corresponding conditions. To resolve these issues, we introduce Condition-aware Optimization with Objective-guided Sampling (CaO$_2$), a two-stage diffusion-based framework that aligns the distillation process with the evaluation objective. The first stage employs a probability-informed sample selection pipeline, while the second stage refines the corresponding latent representations to improve conditional likelihood. CaO$_2$ achieves state-of-the-art performance on ImageNet and its subsets, surpassing the best-performing baselines by an average of 2.3% accuracy.
- Abstract(参考訳): データセット蒸留における拡散モデルの導入は、大規模で高解像度なターゲットデータセットのためのコンパクトなサロゲートデータセットを作成する上で有望な可能性を示し、従来の双方向/ユニレベル最適化手法よりも効率と性能を向上させる。
しかし, 現状の拡散型データセット蒸留は, 評価プロセスを見越して, 蒸留プロセスにおける2つの重要な矛盾点を示す。(1) 目的不整合, 蒸留プロセスが評価対象から分岐する, (2) 条件不整合, 生成画像と対応する条件との一致が生じる。
これらの問題を解決するために, 蒸留プロセスと評価目的を整合させる2段階拡散型フレームワークCaO$_2$を導入する。
第1段階は確率インフォームされたサンプル選択パイプラインを使用し、第2段階は条件付き可能性を改善するために対応する潜在表現を洗練する。
CaO$_2$はImageNetとそのサブセットにおける最先端のパフォーマンスを達成し、平均2.3%の精度で最高のパフォーマンスのベースラインを超えた。
関連論文リスト
- DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.28392857127733]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation [18.295352638247362]
嗜好ラベルは典型的には、軌跡を識別する端末でのみ利用可能である。
そこで本研究では,中間ステップと端末の復号化分布を明示的に接続する復号化分布推定法を提案する。
我々の手法は定量的にも質的にも優れた性能を達成する。
論文 参考訳(メタデータ) (2024-11-22T11:45:33Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。