論文の概要: Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data
- arxiv url: http://arxiv.org/abs/2404.01413v1
- Date: Mon, 1 Apr 2024 18:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:47:06.178130
- Title: Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data
- Title(参考訳): モデル崩壊は必然か? 実データと合成データを蓄積して再帰の曲線を破る
- Authors: Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak, Rajashree Agrawal, Dhruv Pai, Andrey Gromov, Daniel A. Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo,
- Abstract要約: 蓄積データにより,実データ上での深部生成モデルにおけるモデル崩壊が防止されることを示す。
我々の研究は、データがモデル崩壊を蓄積する、一貫した理論的および実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 49.73114504515852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of generative models, combined with pretraining on web-scale data, raises a timely question: what happens when these models are trained on their own generated outputs? Recent investigations into model-data feedback loops discovered that such loops can lead to model collapse, a phenomenon where performance progressively degrades with each model-fitting iteration until the latest model becomes useless. However, several recent papers studying model collapse assumed that new data replace old data over time rather than assuming data accumulate over time. In this paper, we compare these two settings and show that accumulating data prevents model collapse. We begin by studying an analytically tractable setup in which a sequence of linear models are fit to the previous models' predictions. Previous work showed if data are replaced, the test error increases linearly with the number of model-fitting iterations; we extend this result by proving that if data instead accumulate, the test error has a finite upper bound independent of the number of iterations. We next empirically test whether accumulating data similarly prevents model collapse by pretraining sequences of language models on text corpora. We confirm that replacing data does indeed cause model collapse, then demonstrate that accumulating data prevents model collapse; these results hold across a range of model sizes, architectures and hyperparameters. We further show that similar results hold for other deep generative models on real data: diffusion models for molecule generation and variational autoencoders for image generation. Our work provides consistent theoretical and empirical evidence that data accumulation mitigates model collapse.
- Abstract(参考訳): 生成モデルの拡散は、Webスケールのデータの事前学習と相まって、タイムリーな疑問を引き起こします。
モデルデータフィードバックループに関する最近の研究により、そのようなループがモデル崩壊につながることが判明した。
しかし、モデル崩壊を研究する最近の論文では、新しいデータが時間とともに蓄積されると仮定するのではなく、時間とともに古いデータを置き換えることを仮定している。
本稿では,これらの2つの設定を比較し,蓄積データによってモデル崩壊が防止されることを示す。
まず、線形モデルの列が以前のモデルの予測に適合する解析的抽出可能な設定について検討する。
従来の研究は,データを置き換える場合,テストエラーがモデル適合反復数とともに線形に増加することを示した。
次に,テキストコーパス上の言語モデルの列を事前学習することにより,データの蓄積がモデル崩壊を防止できるかどうかを実証的に検証する。
データの置換がモデル崩壊を引き起こすことを確認し、蓄積したデータによってモデル崩壊が防止されることを示す。
さらに, 分子生成のための拡散モデルと画像生成のための変分オートエンコーダという, 実データ上の他の深部生成モデルについても同様の結果が得られた。
我々の研究は、データの蓄積がモデル崩壊を緩和する、一貫した理論的および実証的な証拠を提供する。
関連論文リスト
- Universality of the $π^2/6$ Pathway in Avoiding Model Collapse [0.0]
π-2乗オーバ6の増大リスクの普遍性は、正準統計モデルの大群にまたがることを示した。
さまざまな拡張プロセスに対応可能なフレームワークを提供しています。
論文 参考訳(メタデータ) (2024-10-30T08:44:10Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルがWebスケールデータセット上で事前訓練されている場合、崩壊と崩壊の回避について検討する。
意外なことに、実データと合成データの非自明な相互作用は、テスト損失を減らすための合成データの値は、実データの絶対量に依存する。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。