論文の概要: When Models Don't Collapse: On the Consistency of Iterative MLE
- arxiv url: http://arxiv.org/abs/2505.19046v1
- Date: Sun, 25 May 2025 08:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.860365
- Title: When Models Don't Collapse: On the Consistency of Iterative MLE
- Title(参考訳): モデルが崩壊しないとき - 反復的MLEの一貫性について
- Authors: Daniel Barzilai, Ohad Shamir,
- Abstract要約: 最大誤差推定(MLE)のためのモデル崩壊の研究
実データの一部が消えても崩壊は避けられることを示す非漸近境界を確立する。
MLE整合性以外にもいくつかの仮定(MLE整合性)が本当に必要であることを示す。
- 参考スコア(独自算出の注目度): 34.99810116340191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of generative models has created a feedback loop, in which each generation of models is trained on data partially produced by its predecessors. This process has raised concerns about \emph{model collapse}: A critical degradation in performance caused by repeated training on synthetic data. However, different analyses in the literature have reached different conclusions as to the severity of model collapse. As such, it remains unclear how concerning this phenomenon is, and under which assumptions it can be avoided. To address this, we theoretically study model collapse for maximum likelihood estimation (MLE), in a natural setting where synthetic data is gradually added to the original data set. Under standard assumptions (similar to those long used for proving asymptotic consistency and normality of MLE), we establish non-asymptotic bounds showing that collapse can be avoided even as the fraction of real data vanishes. On the other hand, we prove that some assumptions (beyond MLE consistency) are indeed necessary: Without them, model collapse can occur arbitrarily quickly, even when the original data is still present in the training set. To the best of our knowledge, these are the first rigorous examples of iterative generative modeling with accumulating data that rapidly leads to model collapse.
- Abstract(参考訳): 生成モデルの普及によりフィードバックループが作成され、各世代のモデルはその前任者が部分的に生成したデータに基づいて訓練される。
このプロセスは 'emph{model collapse}: A critical degradation of performance caused by repeat training on synthetic data。
しかし、論文のさまざまな分析は、モデル崩壊の深刻さに関して異なる結論に達した。
したがって、この現象がどうあるのか、どの仮定で避けられるのかは定かではない。
そこで本研究では, モデル崩壊を最大推定(MLE)として, 合成データが元のデータセットに徐々に付加される自然条件下で理論的に検討する。
標準的な仮定(MLEの漸近的一貫性と正規性を証明するために長く使われてきたものに似ている)の下では、実際のデータの断片が消えても崩壊は避けられることを示す非漸近的境界を確立する。
一方、MLE整合性以外には、いくつかの仮定(MLE整合性)が本当に必要であることが証明されている。
我々の知る限りでは、これらはモデル崩壊につながるデータを蓄積した反復生成モデリングの最初の厳密な例である。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Rate of Model Collapse in Recursive Training [13.722324504719282]
最適確率(MLか近距離ML)推定の下で、よく研究された分布族に対して、モデル崩壊がどれだけ早く起こるかを問う。
驚くべきことに、離散分布やガウス分布のような基本的な分布であっても、モデル崩壊の正確な速度は不明である。
その結果,単語を忘れる時間は,元のコーパスで発生した回数にほぼ線形に依存していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T15:21:50Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。
我々は、この現象を幅広い状況で定量的に概説する分析式を得る。
モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:26:01Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。