論文の概要: Taming Diffusion for Dataset Distillation with High Representativeness
- arxiv url: http://arxiv.org/abs/2505.18399v1
- Date: Fri, 23 May 2025 22:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.392415
- Title: Taming Diffusion for Dataset Distillation with High Representativeness
- Title(参考訳): 高代表性データセット蒸留における処理拡散
- Authors: Lin Zhao, Yushu Wu, Xinru Jiang, Jianyang Gu, Yanzhi Wang, Xiaolin Xu, Pu Zhao, Xue Lin,
- Abstract要約: D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。
我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
- 参考スコア(独自算出の注目度): 49.3818035378669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning models demand larger datasets, driving the need for dataset distillation to create compact, cost-efficient datasets while maintaining performance. Due to the powerful image generation capability of diffusion, it has been introduced to this field for generating distilled images. In this paper, we systematically investigate issues present in current diffusion-based dataset distillation methods, including inaccurate distribution matching, distribution deviation with random noise, and separate sampling. Building on this, we propose D^3HR, a novel diffusion-based framework to generate distilled datasets with high representativeness. Specifically, we adopt DDIM inversion to map the latents of the full dataset from a low-normality latent domain to a high-normality Gaussian domain, preserving information and ensuring structural consistency to generate representative latents for the distilled dataset. Furthermore, we propose an efficient sampling scheme to better align the representative latents with the high-normality Gaussian distribution. Our comprehensive experiments demonstrate that D^3HR can achieve higher accuracy across different model architectures compared with state-of-the-art baselines in dataset distillation. Source code: https://github.com/lin-zhao-resoLve/D3HR.
- Abstract(参考訳): 最近のディープラーニングモデルはより大きなデータセットを必要としており、パフォーマンスを維持しながら、コンパクトでコスト効率のよいデータセットを作成するためにデータセットの蒸留を必要としている。
拡散の強力な画像生成能力のため、この分野で蒸留画像を生成するために導入された。
本稿では,不正確な分布マッチング,ランダムノイズによる分布偏差,分離サンプリングなど,現在の拡散型データセット蒸留法における問題点を系統的に検討する。
そこで我々はD^3HRを提案する。D^3HRは高い代表性を持つ蒸留データセットを生成する新しい拡散型フレームワークである。
具体的には、DDIMインバージョンを用いて、全データセットの潜水剤を低正規性潜水ドメインから高正規性ガウス領域にマッピングし、情報を保存し、構造的整合性を確保して蒸留データセットの代表的な潜水剤を生成する。
さらに,高正規度ガウス分布と代表潜伏者をよりよく整合させる効率的なサンプリング手法を提案する。
総合的な実験により, D^3HRは, データセット蒸留における最先端のベースラインと比較して, 異なるモデルアーキテクチャで高い精度が得られることが示された。
ソースコード:https://github.com/lin-zhao-resoLve/D3HR。
関連論文リスト
- Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory [33.38900857290244]
この問題を解決するために,拡散モデルに基づく多様性駆動型生成データセット蒸留法を提案する。
蒸留されたデータセットと実際のデータセットの分布を一致させる自己適応メモリを導入し、代表性を評価する。
我々の手法は、ほとんどの状況で既存の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-26T03:48:56Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.06080108012735]
FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文 参考訳(メタデータ) (2024-12-01T04:59:34Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Latent Dataset Distillation with Diffusion Models [9.398135472047132]
本稿では,拡散モデルを用いた潜在データセット蒸留(LD3M)を提案する。
我々の新しい拡散過程は, この課題に適しており, 蒸留の勾配流を著しく改善する。
LD3Mは、クラスごとに1つの画像に対して最大4.8 p.p.と4.2 p.p.を一貫して上回っている。
論文 参考訳(メタデータ) (2024-03-06T17:41:41Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。