論文の概要: Slight Corruption in Pre-training Data Makes Better Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.20494v2
- Date: Wed, 30 Oct 2024 13:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:23.719400
- Title: Slight Corruption in Pre-training Data Makes Better Diffusion Models
- Title(参考訳): 事前学習データにおける光崩壊による拡散モデルの改善
- Authors: Hao Chen, Yujin Han, Diganta Misra, Xiang Li, Kai Hu, Difan Zou, Masashi Sugiyama, Jindong Wang, Bhiksha Raj,
- Abstract要約: 拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
- 参考スコア(独自算出の注目度): 71.90034201302397
- License:
- Abstract: Diffusion models (DMs) have shown remarkable capabilities in generating realistic high-quality images, audios, and videos. They benefit significantly from extensive pre-training on large-scale datasets, including web-crawled data with paired data and conditions, such as image-text and image-class pairs. Despite rigorous filtering, these pre-training datasets often inevitably contain corrupted pairs where conditions do not accurately describe the data. This paper presents the first comprehensive study on the impact of such corruption in pre-training data of DMs. We synthetically corrupt ImageNet-1K and CC3M to pre-train and evaluate over 50 conditional DMs. Our empirical findings reveal that various types of slight corruption in pre-training can significantly enhance the quality, diversity, and fidelity of the generated images across different DMs, both during pre-training and downstream adaptation stages. Theoretically, we consider a Gaussian mixture model and prove that slight corruption in the condition leads to higher entropy and a reduced 2-Wasserstein distance to the ground truth of the data distribution generated by the corruptly trained DMs. Inspired by our analysis, we propose a simple method to improve the training of DMs on practical datasets by adding condition embedding perturbations (CEP). CEP significantly improves the performance of various DMs in both pre-training and downstream tasks. We hope that our study provides new insights into understanding the data and pre-training processes of DMs and all models are released at https://huggingface.co/DiffusionNoise.
- Abstract(参考訳): 拡散モデル(DM)は、現実的な高品質の画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
これは、ペア化されたデータと、画像テキストや画像クラスのペアのような条件を持つWebクロールデータを含む、大規模なデータセットの広範な事前トレーニングの恩恵を受ける。
厳密なフィルタリングにも拘わらず、これらの事前学習データセットは、データを正確に記述していない状態の破損したペアを必然的に含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
画像Net-1KとCC3Mを合成分解し,50以上の条件DMを評価した。
実験により, 事前訓練および下流適応段階において, 画像の品質, 多様性, 忠実度を著しく向上させることができることが明らかとなった。
理論的には,ガウス混合モデルについて考察し,この条件下での微弱な破損が,不正に訓練されたDMが生み出すデータ分布の基底真実に対するエントロピーと2-ワッサーシュタイン距離を減少させることを示す。
そこで本研究では,条件埋め込み摂動(CEP)を付加することにより,実用的なデータセット上でのDMのトレーニングを改善するための簡単な手法を提案する。
CEPは、トレーニング前タスクと下流タスクの両方において、様々なDMの性能を大幅に改善する。
我々は、DMのデータと事前学習プロセスを理解するための新しい洞察を提供し、すべてのモデルがhttps://huggingface.co/DiffusionNoise.comでリリースされることを願っている。
関連論文リスト
- Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル (DM) は様々な領域で異常な生成能力を示す。
DMを加速する最も一般的な方法は、生成中のデノナイジングステップの数を減少させることである。
本稿では,大規模な事前学習型DMを高速なアーキテクチャに転送する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:12:22Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks [26.387044804861937]
拡散モデル(DM)の微調整は重要な進歩であり、トレーニングコストを大幅に削減し、パーソナライズされたAIアプリケーションを可能にする。
トレーニングプロセス中、画像の忠実度は最初改善され、ノイズパターンの出現によって予期せぬ劣化が生じるが、その後、重度のオーバーフィッティングで回復する。
生成したノイズパターンを汚損段階と表現し, 実験結果から, オブジェクト駆動および主観駆動の両方で生成した画像の忠実度, 品質, 多様性を著しく低下させることが実証された。
論文 参考訳(メタデータ) (2024-05-30T10:47:48Z) - Robust Diffusion Models for Adversarial Purification [28.313494459818497]
拡散モデル(DM)に基づく対位法(AP)は、対位法トレーニング(AT)の最も強力な代替手段であることが示されている。
本稿では,事前訓練したDMとは独立に,敵対的指導を施した新しい頑健な逆過程を提案する。
この堅牢なガイダンスは、よりセマンティックなコンテンツを保持する純粋化された例を生成するだけでなく、DMの正確でロバストなトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-03-24T08:34:08Z) - Ambient Diffusion Posterior Sampling: Solving Inverse Problems with
Diffusion Models trained on Corrupted Data [56.81246107125692]
Ambient Diffusion Posterior Smpling (A-DPS) は、ある種類の腐敗に対して事前訓練された生成モデルである。
A-DPSは、いくつかの画像復元タスクにおいて、クリーンなデータで訓練されたモデルよりも、速度と性能の両方で優れていることが示される。
我々はAmbient Diffusionフレームワークを拡張して、FourierサブサンプルのマルチコイルMRI測定にのみアクセスしてMRIモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-13T17:28:20Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。