論文の概要: Model Collapse Demystified: The Case of Regression
- arxiv url: http://arxiv.org/abs/2402.07712v1
- Date: Mon, 12 Feb 2024 15:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:55:44.407939
- Title: Model Collapse Demystified: The Case of Regression
- Title(参考訳): モデル崩壊の謎:回帰の場合
- Authors: Elvis Dohmatob, Yunzhen Feng and Julia Kempe
- Abstract要約: モデル崩壊(モデル崩壊)とは、モデルが過去の世代から生成されたデータに基づいて時間をかけて訓練されるときに、そのモデルが最終的に役に立たないようになるまでその性能が低下する状況を指す。
本稿では,この現象をカーネル回帰の簡易な設定で研究し,モデルが偽データに対処できる場所と,モデルの性能が完全に崩壊する状況との間に明確な相互関係を示す結果を得る。
- 参考スコア(独自算出の注目度): 13.616450446685038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models like ChatGPT, the phenomenon of "model
collapse" refers to the situation whereby as a model is trained recursively on
data generated from previous generations of itself over time, its performance
degrades until the model eventually becomes completely useless, i.e the model
collapses. In this work, we study this phenomenon in the simplified setting of
kernel regression and obtain results which show a clear crossover between where
the model can cope with fake data, and a regime where the model's performance
completely collapses. Under polynomial decaying spectral and source conditions,
we obtain modified scaling laws which exhibit new crossover phenomena from fast
to slow rates. We also propose a simple strategy based on adaptive
regularization to mitigate model collapse. Our theoretical results are
validated with experiments.
- Abstract(参考訳): ChatGPTのような大規模言語モデルの時代において、「モデル崩壊」という現象は、モデルが過去の世代から生成されたデータに基づいて再帰的に訓練されることで、モデルが最終的に完全に役に立たないようになるまでその性能が低下する状況である。
本研究では,この現象を,カーネル回帰の簡易な設定において検討し,モデルが偽データに対処できる場所と,モデルの性能が完全に崩壊する状態との明確な交差関係を示す結果を得る。
多項式減衰スペクトルおよび震源条件下では、高速から低速のクロスオーバー現象を示す改良されたスケーリング法則が得られる。
また、モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
我々の理論的結果は実験によって検証される。
関連論文リスト
- Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling [10.159932782892865]
生成モデルは、出力が実際のデータと区別できないユニークなしきい値に達した。
トレーニングと生成の繰り返しループが発生すると、パフォーマンスの深刻な劣化が観察されている。
本稿では,遺伝子変異に触発された簡便かつ効果的な方法として,再利用可能な拡散微細構造(ReDiFine)を提案する。
論文 参考訳(メタデータ) (2024-07-04T13:41:54Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Robustness of Model Predictions under Extension [3.766702945560518]
分析にモデルを使うのに注意すべき点は、予測因果効果と条件独立性はモデル拡張の下では堅牢でないことである。
定性モデル予測のロバスト性を効率的に評価するために,因果順序付け手法の使い方を示す。
平衡の力学系では、新しい洞察が適切なモデル拡張を選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-08T20:21:03Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Dimension Independent Generalization Error by Stochastic Gradient
Descent [12.474236773219067]
本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。
一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
論文 参考訳(メタデータ) (2020-03-25T03:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。