論文の概要: Bootstrapping Diffusion: Diffusion Model Training Leveraging Partial and Corrupted Data
- arxiv url: http://arxiv.org/abs/2505.11825v1
- Date: Sat, 17 May 2025 04:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.875139
- Title: Bootstrapping Diffusion: Diffusion Model Training Leveraging Partial and Corrupted Data
- Title(参考訳): ブートストラップ拡散:部分的および破損したデータを活用した拡散モデルトレーニング
- Authors: Xudong Ma,
- Abstract要約: 本稿では,部分的データビューを用いた拡散モデルの訓練方法を提案する。
提案手法は,まず個々の視点に対して1つの拡散モデルを訓練し,残差スコア関数を予測するためのモデルを訓練する。
一般化誤差境界を証明し,正規化を適切に適用すれば,拡散モデルトレーニング手法がより低い一般化誤差を達成できることを示す。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training diffusion models requires large datasets. However, acquiring large volumes of high-quality data can be challenging, for example, collecting large numbers of high-resolution images and long videos. On the other hand, there are many complementary data that are usually considered corrupted or partial, such as low-resolution images and short videos. Other examples of corrupted data include videos that contain subtitles, watermarks, and logos. In this study, we investigate the theoretical problem of whether the above partial data can be utilized to train conventional diffusion models. Motivated by our theoretical analysis in this study, we propose a straightforward approach of training diffusion models utilizing partial data views, where we consider each form of complementary data as a view of conventional data. Our proposed approach first trains one separate diffusion model for each individual view, and then trains a model for predicting the residual score function. We prove generalization error bounds, which show that the proposed diffusion model training approach can achieve lower generalization errors if proper regularizations are adopted in the residual score function training. In particular, we prove that the difficulty in training the residual score function scales proportionally with the signal correlations not captured by partial data views. Consequently, the proposed approach achieves near first-order optimal data efficiency.
- Abstract(参考訳): 拡散モデルの訓練には大きなデータセットが必要である。
しかし、高解像度の画像や長いビデオの収集など、大量の高品質なデータを取得することは困難である。
一方、低解像度画像やショートビデオなど、一般的には破損または部分的と見なされる相補的なデータが多数存在する。
その他の破損したデータの例として、字幕、透かし、ロゴを含むビデオがある。
本研究では,従来の拡散モデルの学習に,上記の部分データを利用できるかどうかという理論的問題について検討する。
本研究で得られた理論分析により, 部分的データビューを用いた拡散モデルの訓練手法が提案され, 相補的データの各形態を従来のデータビューとみなす。
提案手法は,まず個々の視点に対して1つの拡散モデルを訓練し,残差スコア関数を予測するためのモデルを訓練する。
そこで,本提案手法により,残差スコア関数トレーニングにおいて正規化が適切に適用された場合,拡散モデルトレーニング手法がより低い一般化誤差を達成可能であることを示す。
特に、残差スコア関数の訓練の難しさは、部分的なデータビューで捉えない信号相関と比例的にスケールすることを証明する。
提案手法は, ほぼ1次最適データ効率を実現する。
関連論文リスト
- Integrating Amortized Inference with Diffusion Models for Learning Clean Distribution from Corrupted Images [19.957503854446735]
拡散モデル(DM)は、逆問題を解決するための強力な生成モデルとして登場した。
FlowDiffは条件付き正規化フローモデルを利用して、破損したデータソース上で拡散モデルのトレーニングを容易にする共同トレーニングパラダイムである。
実験の結果,FlowDiffは広範囲の破損したデータソースにわたるクリーンな分布を効果的に学習できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T18:33:20Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Unbiased Image Synthesis via Manifold Guidance in Diffusion Models [9.531220208352252]
拡散モデルは、しばしば必然的に特定のデータ属性を好ましくし、生成された画像の多様性を損なう。
我々は,DDPMにおけるバイアス問題を緩和する最初の教師なし手法であるManifold Smpling Guidanceというプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T02:03:17Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。