論文の概要: On the Stability of Iterative Retraining of Generative Models on their
own Data
- arxiv url: http://arxiv.org/abs/2310.00429v4
- Date: Thu, 15 Feb 2024 21:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:18:12.459625
- Title: On the Stability of Iterative Retraining of Generative Models on their
own Data
- Title(参考訳): 自己データを用いた生成モデルの反復再訓練の安定性について
- Authors: Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco
Jiralerspong, and Gauthier Gidel
- Abstract要約: 生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
- 参考スコア(独自算出の注目度): 56.153542044045224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have made tremendous progress in modeling complex
data, often exhibiting generation quality that surpasses a typical human's
ability to discern the authenticity of samples. Undeniably, a key driver of
this success is enabled by the massive amounts of web-scale data consumed by
these models. Due to these models' striking performance and ease of
availability, the web will inevitably be increasingly populated with synthetic
content. Such a fact directly implies that future iterations of generative
models must contend with the reality that their training is curated from both
clean data and artificially generated data from past models. In this paper, we
develop a framework to rigorously study the impact of training generative
models on mixed datasets (of real and synthetic data) on their stability. We
first prove the stability of iterative training under the condition that the
initial generative models approximate the data distribution well enough and the
proportion of clean training data (w.r.t. synthetic data) is large enough. We
empirically validate our theory on both synthetic and natural images by
iteratively training normalizing flows and state-of-the-art diffusion models on
CIFAR10 and FFHQ.
- Abstract(参考訳): 深層生成モデルは複雑なデータのモデリングにおいて大きな進歩を遂げ、しばしばサンプルの真正性を識別する典型的な人間の能力を超える生成品質を示す。
間違いなく、この成功の重要な要因は、これらのモデルが消費する大量のWebスケールデータによって実現される。
これらのモデルの性能と可用性の容易さにより、Webは必然的に、合成コンテンツで人口が増えます。
このような事実は、生成モデルの将来のイテレーションは、彼らのトレーニングがクリーンなデータと過去のモデルから人工的に生成されたデータの両方からキュレートされているという事実と競合する必要があることを意味する。
本稿では,混合データセット(実データと合成データ)に対する生成モデルの学習が安定性に与える影響を厳格に研究する枠組みを開発した。
まず, 初期生成モデルがデータ分布を十分に近似し, クリーントレーニングデータ(w.r.t.合成データ)の比率が十分に大きいことを条件として, 反復学習の安定性を証明する。
我々は,CIFAR10およびFFHQ上の正規化流れと最先端拡散モデルを用いて,合成画像と自然画像の両方に関する理論を実験的に検証した。
関連論文リスト
- Will the Inclusion of Generated Data Amplify Bias Across Generations in Future Image Classification Models? [29.71939692883025]
画像分類タスクにおける生成データの影響について,特にバイアスに着目して検討する。
数百の実験がColorized MNIST、CIFAR-20/100、Hard ImageNetデータセットで実施されている。
本研究は, 実世界の応用において, 合成データの公平性に関する議論が進行中であることを示すものである。
論文 参考訳(メタデータ) (2024-10-14T05:07:06Z) - Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - The Big Data Myth: Using Diffusion Models for Dataset Generation to
Train Deep Detection Models [0.15469452301122172]
本研究では, 微調整型安定拡散モデルによる合成データセット生成のための枠組みを提案する。
本研究の結果から, 合成データを用いた物体検出モデルは, ベースラインモデルと同じような性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-06-16T10:48:52Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。