論文の概要: Ambient Diffusion Omni: Training Good Models with Bad Data
- arxiv url: http://arxiv.org/abs/2506.10038v1
- Date: Tue, 10 Jun 2025 22:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.33165
- Title: Ambient Diffusion Omni: Training Good Models with Bad Data
- Title(参考訳): Ambient Diffusion Omni: 悪いデータによる優れたモデルのトレーニング
- Authors: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis,
- Abstract要約: 拡散モデルの品質向上のために,低品質,合成,分布外画像の使い方を示す。
我々は、利用可能なすべての画像から信号を取り出すことができる拡散モデルを訓練するための原則的なフレームワークであるAmbient Omniを提案する。
- 参考スコア(独自算出の注目度): 45.821861121026394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show how to use low-quality, synthetic, and out-of-distribution images to improve the quality of a diffusion model. Typically, diffusion models are trained on curated datasets that emerge from highly filtered data pools from the Web and other sources. We show that there is immense value in the lower-quality images that are often discarded. We present Ambient Diffusion Omni, a simple, principled framework to train diffusion models that can extract signal from all available images during training. Our framework exploits two properties of natural images -- spectral power law decay and locality. We first validate our framework by successfully training diffusion models with images synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We then use our framework to achieve state-of-the-art ImageNet FID, and we show significant improvements in both image quality and diversity for text-to-image generative modeling. The core insight is that noise dampens the initial skew between the desired high-quality distribution and the mixed distribution we actually observe. We provide rigorous theoretical justification for our approach by analyzing the trade-off between learning from biased data versus limited unbiased data across diffusion times.
- Abstract(参考訳): 拡散モデルの品質向上のために,低品質,合成,分布外画像の使い方を示す。
通常、拡散モデルは、Webや他のソースから高度にフィルタリングされたデータプールから生まれる、キュレートされたデータセットに基づいて訓練される。
しばしば破棄される低品質画像には大きな価値があることが示される。
我々は、トレーニング中に利用可能なすべての画像から信号を抽出できる拡散モデルをトレーニングするための、シンプルで原則化されたフレームワークであるAmbient Diffusion Omniを提案する。
我々の枠組みは、スペクトルパワー法則減衰と局所性という、自然像の2つの特性を利用する。
まず,ガウスのぼかし,JPEG圧縮,動きのぼかしによって合成劣化した画像を用いた拡散モデルのトレーニングに成功した。
次に、我々のフレームワークを用いて最先端のImageNet FIDを実現し、テキスト・ツー・イメージ生成モデリングにおける画像品質と多様性の両方に大きな改善点を示す。
ノイズは、望まれる高品質な分布と、実際に観測される混合分布との間の初期歪を和らげる。
拡散時間におけるバイアス付きデータと制限付き非バイアス付きデータとのトレードオフを分析することによって、我々のアプローチを厳格に理論的に正当化する。
関連論文リスト
- Integrating Amortized Inference with Diffusion Models for Learning Clean Distribution from Corrupted Images [19.957503854446735]
拡散モデル(DM)は、逆問題を解決するための強力な生成モデルとして登場した。
FlowDiffは条件付き正規化フローモデルを利用して、破損したデータソース上で拡散モデルのトレーニングを容易にする共同トレーニングパラダイムである。
実験の結果,FlowDiffは広範囲の破損したデータソースにわたるクリーンな分布を効果的に学習できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T18:33:20Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Unbiased Image Synthesis via Manifold Guidance in Diffusion Models [9.531220208352252]
拡散モデルは、しばしば必然的に特定のデータ属性を好ましくし、生成された画像の多様性を損なう。
我々は,DDPMにおけるバイアス問題を緩和する最初の教師なし手法であるManifold Smpling Guidanceというプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T02:03:17Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。