論文の概要: Universality of the $π^2/6$ Pathway in Avoiding Model Collapse
- arxiv url: http://arxiv.org/abs/2410.22812v1
- Date: Wed, 30 Oct 2024 08:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:01.421900
- Title: Universality of the $π^2/6$ Pathway in Avoiding Model Collapse
- Title(参考訳): モデル崩壊回避における$π^2/6$経路の普遍性
- Authors: Apratim Dey, David Donoho,
- Abstract要約: π-2乗オーバ6の増大リスクの普遍性は、正準統計モデルの大群にまたがることを示した。
さまざまな拡張プロセスに対応可能なフレームワークを提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Researchers in empirical machine learning recently spotlighted their fears of so-called Model Collapse. They imagined a discard workflow, where an initial generative model is trained with real data, after which the real data are discarded, and subsequently, the model generates synthetic data on which a new model is trained. They came to the conclusion that models degenerate as model-fitting generations proceed. However, other researchers considered an augment workflow, where the original real data continue to be used in each generation of training, augmented by synthetic data from models fit in all earlier generations. Empirical results on canonical datasets and learning procedures confirmed the occurrence of model collapse under the discard workflow and avoidance of model collapse under the augment workflow. Under the augment workflow, theoretical evidence also confirmed avoidance in particular instances; specifically, Gerstgrasser et al. (2024) found that for classical Linear Regression, test risk at any later generation is bounded by a moderate multiple, viz. pi-squared-over-6 of the test risk of training with the original real data alone. Some commentators questioned the generality of theoretical conclusions based on the generative model assumed in Gerstgrasser et al. (2024): could similar conclusions be reached for other task/model pairings? In this work, we demonstrate the universality of the pi-squared-over-6 augment risk bound across a large family of canonical statistical models, offering key insights into exactly why collapse happens under the discard workflow and is avoided under the augment workflow. In the process, we provide a framework that is able to accommodate a large variety of workflows (beyond discard and augment), thereby enabling an experimenter to judge the comparative merits of multiple different workflows by simulating a simple Gaussian process.
- Abstract(参考訳): 実験的な機械学習の研究者たちは最近、いわゆるModel Collapseに対する恐怖に火をつけた。
彼らは、最初の生成モデルを実際のデータでトレーニングし、その後、実際のデータを破棄し、その後、新しいモデルをトレーニングした合成データを生成する、廃棄ワークフローを想像した。
彼らはモデル適合世代が進むにつれてモデルを退化させるという結論に達した。
しかし、他の研究者は、トレーニングの各世代で元の実際のデータが引き続き使われ、初期の世代に適合するモデルの合成データによって強化される拡張ワークフローを検討した。
標準データセットと学習手順の実証結果から,捨てワークフロー下でのモデル崩壊の発生と拡張ワークフロー下でのモデル崩壊の回避が確認された。
特に、Gerstgrasser et al (2024)は、古典的な線形回帰において、後の世代におけるテストのリスクは、元の実データだけでトレーニングするテストのリスクのpi-squared-over-6の適度な多重(viz)によって境界づけられていることを発見した。
Gerstgrasser et al (2024) で仮定された生成モデルに基づく理論的な結論の一般化を疑問視する論者もいる。
本研究では,大容量の正準統計モデルにまたがるpi-squared-over-6拡張リスクの普遍性を実証し,デカードワークフローの下で崩壊が起こる理由を正確に把握し,拡張ワークフローでは回避されることを示す。
このプロセスでは,さまざまなワークフロー(破棄や拡張など)に対応可能なフレームワークを提供し,単純なガウス過程をシミュレートすることで,実験者が複数のワークフローの比較メリットを判断することを可能にする。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。