論文の概要: Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World
- arxiv url: http://arxiv.org/abs/2410.16713v2
- Date: Mon, 16 Dec 2024 06:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:06.272008
- Title: Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World
- Title(参考訳): 崩壊か恐怖か : 自己生成世界における合成データの危険と約束
- Authors: Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo,
- Abstract要約: 生成機械学習モデルがWebスケールデータセット上で事前訓練されている場合、崩壊と崩壊の回避について検討する。
意外なことに、実データと合成データの非自明な相互作用は、テスト損失を減らすための合成データの値は、実データの絶対量に依存する。
- 参考スコア(独自算出の注目度): 19.266191284270793
- License:
- Abstract: The increasing presence of AI-generated content on the internet raises a critical question: What happens when generative machine learning models are pretrained on web-scale datasets containing data created by earlier models? Some authors prophesy \textit{model collapse} under a `{\it replace}' scenario: a sequence of models, the first trained with real data and each later one trained {\it only on} synthetic data from its preceding model. In this scenario, models successively degrade. Others see collapse as avoidable; in an `{\it accumulate}' scenario, a sequence of models is trained, but each training uses all real and synthetic data generated so far. In this work, we deepen and extend the study of these contrasting scenarios. First, collapse versus avoidance of collapse is studied by comparing the replace and accumulate scenarios on each of three prominent generative modeling settings; we find the same contrast emerges in all three settings. Second, we study a compromise scenario; the available data remains the same as in the {\it accumulate} scenario -- but unlike {\it accumulate} and like {\it replace}, each model is trained using a fixed compute budget; we demonstrate that model test loss on real data is larger than in the {\it accumulate} scenario, but apparently plateaus, unlike the divergence seen with {\it replace}. Third, we study the relative importance of cardinality and proportion of real data for avoiding model collapse. Surprisingly, we find a non-trivial interaction between real and synthetic data, where the value of synthetic data for reducing test loss depends on the absolute quantity of real data. Our insights are particularly important when forecasting whether future frontier generative models will collapse or thrive, and our results open avenues for empirically and mathematically studying the context-dependent value of synthetic data.
- Abstract(参考訳): 生成する機械学習モデルが、以前のモデルが生成したデータを含むWebスケールデータセットで事前トレーニングされた場合、何が起こるのか?
いくつかの著者は '{\it replacement}' のシナリオの下で予言的 \textit{model collapse} を予言している: モデルのシーケンス、最初の実データで訓練されたモデル、そしてその後に訓練された各モデルはその前のモデルから合成されたデータのみである。
このシナリオでは、モデルは順次劣化する。
シナリオでは、モデルのシーケンスがトレーニングされますが、各トレーニングでは、これまで生成されたすべての実データと合成データを使用します。
本研究では,これらのコントラストシナリオの研究をさらに深め,拡張する。
まず、3つの顕著な生成的モデリング設定のそれぞれにおいて、置換と蓄積のシナリオを比較して、崩壊の回避と崩壊の回避を比較し、同じコントラストが3つの設定で現れることを明らかにする。
第二に、我々は妥協シナリオを研究し、利用可能なデータは {\itcum} のシナリオと変わらないが、 {\itcum} のシナリオと異なり、各モデルは固定された計算予算を使って訓練されている。
第3に、モデル崩壊を避けるために、濃度と実データの割合の相対的重要性について検討する。
意外なことに、実データと合成データの非自明な相互作用は、テスト損失を減らすための合成データの値は、実データの絶対量に依存する。
我々の知見は、将来のフロンティア生成モデルが崩壊するか、繁栄するかを予測する上で特に重要である。
関連論文リスト
- How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Universality of the $π^2/6$ Pathway in Avoiding Model Collapse [0.0]
π-2乗オーバ6の増大リスクの普遍性は、正準統計モデルの大群にまたがることを示した。
さまざまな拡張プロセスに対応可能なフレームワークを提供しています。
論文 参考訳(メタデータ) (2024-10-30T08:44:10Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文 参考訳(メタデータ) (2020-09-27T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。