論文の概要: Model Collapse Demystified: The Case of Regression
- arxiv url: http://arxiv.org/abs/2402.07712v1
- Date: Mon, 12 Feb 2024 15:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:55:44.407939
- Title: Model Collapse Demystified: The Case of Regression
- Title(参考訳): モデル崩壊の謎:回帰の場合
- Authors: Elvis Dohmatob, Yunzhen Feng and Julia Kempe
- Abstract要約: モデル崩壊(モデル崩壊)とは、モデルが過去の世代から生成されたデータに基づいて時間をかけて訓練されるときに、そのモデルが最終的に役に立たないようになるまでその性能が低下する状況を指す。
本稿では,この現象をカーネル回帰の簡易な設定で研究し,モデルが偽データに対処できる場所と,モデルの性能が完全に崩壊する状況との間に明確な相互関係を示す結果を得る。
- 参考スコア(独自算出の注目度): 13.616450446685038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models like ChatGPT, the phenomenon of "model
collapse" refers to the situation whereby as a model is trained recursively on
data generated from previous generations of itself over time, its performance
degrades until the model eventually becomes completely useless, i.e the model
collapses. In this work, we study this phenomenon in the simplified setting of
kernel regression and obtain results which show a clear crossover between where
the model can cope with fake data, and a regime where the model's performance
completely collapses. Under polynomial decaying spectral and source conditions,
we obtain modified scaling laws which exhibit new crossover phenomena from fast
to slow rates. We also propose a simple strategy based on adaptive
regularization to mitigate model collapse. Our theoretical results are
validated with experiments.
- Abstract(参考訳): ChatGPTのような大規模言語モデルの時代において、「モデル崩壊」という現象は、モデルが過去の世代から生成されたデータに基づいて再帰的に訓練されることで、モデルが最終的に完全に役に立たないようになるまでその性能が低下する状況である。
本研究では,この現象を,カーネル回帰の簡易な設定において検討し,モデルが偽データに対処できる場所と,モデルの性能が完全に崩壊する状態との明確な交差関係を示す結果を得る。
多項式減衰スペクトルおよび震源条件下では、高速から低速のクロスオーバー現象を示す改良されたスケーリング法則が得られる。
また、モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
我々の理論的結果は実験によって検証される。
関連論文リスト
- DeeDiff: Dynamic Uncertainty-Aware Early Exiting for Accelerating
Diffusion Model Generation [34.7016118539358]
DeeDiffは、拡散モデルの生成効率を改善するために、各サンプリングステップで計算リソースを適応的に割り当てる早期終了フレームワークである。
本稿では,モデル全体の性能ギャップを埋めるため,不確実性を考慮したレイヤワイズ損失を提案する。
本手法は,拡散モデルにおける既存の早期出口法と比較して,最先端の性能と効率のトレードオフを実現する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Factual Error Correction for Abstractive Summarization Models [41.77317902748772]
本稿では,生成した要約の事実誤りを訂正するための編集後修正モジュールを提案する。
本モデルでは,他の神経要約モデルによって生成された要約の事実誤りを補正できることが示されている。
また、人工的なエラー訂正から下流の設定への移行は依然として非常に困難であることもわかりました。
論文 参考訳(メタデータ) (2020-10-17T04:24:16Z) - Exposing Shallow Heuristics of Relation Extraction Models with Challenge
Data [49.378860065474875]
我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの故障モードを同定する。
トレーニングの例として、いくつかの課題データを追加することで、モデルのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-07T21:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。