論文の概要: Towards Theoretical Understandings of Self-Consuming Generative Models
- arxiv url: http://arxiv.org/abs/2402.11778v2
- Date: Mon, 24 Jun 2024 14:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:51:30.699857
- Title: Towards Theoretical Understandings of Self-Consuming Generative Models
- Title(参考訳): 自己消費生成モデルの理論的理解に向けて
- Authors: Shi Fu, Sen Zhang, Yingjie Wang, Xinmei Tian, Dacheng Tao,
- Abstract要約: 本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
- 参考スコア(独自算出の注目度): 56.84592466204185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the emerging challenge of training generative models within a self-consuming loop, wherein successive generations of models are recursively trained on mixtures of real and synthetic data from previous generations. We construct a theoretical framework to rigorously evaluate how this training procedure impacts the data distributions learned by future models, including parametric and non-parametric models. Specifically, we derive bounds on the total variation (TV) distance between the synthetic data distributions produced by future models and the original real data distribution under various mixed training scenarios for diffusion models with a one-hidden-layer neural network score function. Our analysis demonstrates that this distance can be effectively controlled under the condition that mixed training dataset sizes or proportions of real data are large enough. Interestingly, we further unveil a phase transition induced by expanding synthetic data amounts, proving theoretically that while the TV distance exhibits an initial ascent, it declines beyond a threshold point. Finally, we present results for kernel density estimation, delivering nuanced insights such as the impact of mixed data training on error propagation.
- Abstract(参考訳): 本稿では, 自己消費ループ内で生成モデルを訓練することの課題に対処し, 過去の世代から得られた実データと合成データの混合に基づいて, 逐次的にモデルを訓練する手法を提案する。
本研究では,このトレーニング手法が,パラメトリックモデルや非パラメトリックモデルを含む将来のモデルで学習したデータ分布にどのように影響するかを厳格に評価するための理論的枠組みを構築した。
具体的には,1階層のニューラルネットワークスコア関数を持つ拡散モデルに対する様々な混合学習シナリオの下で,将来のモデルによって生成された合成データ分布と元の実データ分布との総変動(TV)距離を導出する。
分析の結果,混合学習データセットのサイズや実データの比率が十分に大きいという条件下で,この距離を効果的に制御できることが示唆された。
興味深いことに、我々は合成データ量の拡大によって誘導される相転移をさらに明らかにし、TV距離が初期上昇を示す一方で、しきい値を超えていることを理論的に証明した。
最後に、カーネル密度推定の結果を示し、混合データトレーニングがエラーの伝播に与える影響など、微妙な洞察を提供する。
関連論文リスト
- Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Generating Synthetic Net Load Data with Physics-informed Diffusion Model [0.8848340429852071]
条件付き認知ニューラルネットワークは、拡散モデルの遷移核のパラメータを共同で訓練するように設計されている。
総合的な評価指標を用いて、生成された合成ネット負荷データの正確性と多様性を評価する。
論文 参考訳(メタデータ) (2024-06-04T02:50:19Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - On the Limitation of Diffusion Models for Synthesizing Training Datasets [5.384630221560811]
本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。
その結果, 合成データセットは, 最先端拡散モデルを用いても, 実際のデータセットの分類性能を低下させることがわかった。
論文 参考訳(メタデータ) (2023-11-22T01:42:23Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。