論文の概要: Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study
- arxiv url: http://arxiv.org/abs/2602.16601v1
- Date: Wed, 18 Feb 2026 16:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.656016
- Title: Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study
- Title(参考訳): 拡散モデルにおける誤差伝播とモデル崩壊:理論的研究
- Authors: Nail B. Khelifa, Richard E. Turner, Ramji Venkataramanan,
- Abstract要約: 合成データに対する再帰的なトレーニングは、広範囲なタスクにおいて、性能を著しく低下させる。
我々は,この現象をスコアベース拡散モデルの設定において理論的に解析する。
- 参考スコア(独自算出の注目度): 27.894241484593735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are increasingly trained or fine-tuned on synthetic data. Recursively training on such data has been observed to significantly degrade performance in a wide range of tasks, often characterized by a progressive drift away from the target distribution. In this work, we theoretically analyze this phenomenon in the setting of score-based diffusion models. For a realistic pipeline where each training round uses a combination of synthetic data and fresh samples from the target distribution, we obtain upper and lower bounds on the accumulated divergence between the generated and target distributions. This allows us to characterize different regimes of drift, depending on the score estimation error and the proportion of fresh data used in each generation. We also provide empirical results on synthetic data and images to illustrate the theory.
- Abstract(参考訳): 機械学習モデルは、合成データに基づいて、ますます訓練されるか、微調整される。
このようなデータに対する再帰的なトレーニングは、広範囲なタスクにおけるパフォーマンスを著しく低下させることが観察されている。
本研究では,この現象を,スコアベース拡散モデルの設定において理論的に解析する。
各訓練ラウンドで対象分布から合成データと新鮮サンプルを併用した現実的なパイプラインでは, 生成した分布と対象分布の累積ばらつきについて, 上下境界を求める。
これにより、各世代で使用されるスコア推定誤差と新鮮なデータの比率に応じて、ドリフトの異なる形態を特徴付けることができる。
また、合成データや画像に関する実験結果も提示し、その理論を解説する。
関連論文リスト
- From Collapse to Improvement: Statistical Perspectives on the Evolutionary Dynamics of Iterative Training on Contaminated Sources [2.8647133890966994]
本稿では,統計的観点からモデル崩壊の問題について考察する。
本研究は,真のターゲットと合成分布の混合から得られた試料の反復的学習について考察する。
真の分布の非トーケン混合重量では、たとえそれが時間の経過とともに崩壊しても、単に汚染に依存しない方法でモデルを訓練すれば、崩壊を避けることができる。
論文 参考訳(メタデータ) (2026-02-11T05:01:46Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。
経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。
本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文 参考訳(メタデータ) (2024-03-18T17:08:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - On the Limitation of Diffusion Models for Synthesizing Training Datasets [5.384630221560811]
本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。
その結果, 合成データセットは, 最先端拡散モデルを用いても, 実際のデータセットの分類性能を低下させることがわかった。
論文 参考訳(メタデータ) (2023-11-22T01:42:23Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。