論文の概要: A Tale of Tails: Model Collapse as a Change of Scaling Laws
- arxiv url: http://arxiv.org/abs/2402.07043v1
- Date: Sat, 10 Feb 2024 21:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:56:01.127690
- Title: A Tale of Tails: Model Collapse as a Change of Scaling Laws
- Title(参考訳): 尾の物語: スケーリング法則の変化としてのモデル崩壊
- Authors: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton and Julia
Kempe
- Abstract要約: 私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
- 参考スコア(独自算出の注目度): 12.45096748949042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.
- Abstract(参考訳): AIモデルのサイズが大きくなるにつれて、ニューラルスケーリング法則は、容量とオリジナルの(人間または自然)トレーニングデータのサイズを増大させるときに、大きなモデルの改善を予測する重要なツールとなっている。
しかし、人気モデルの広範な利用は、オンラインデータとテキストのエコシステムが、徐々に大量の合成データを含むように共進化することを意味する。
本稿では, 合成データが学習コーパスに導入される必然的体制において, スケーリング法則はどのように変化するのかを問う。
将来のモデルはまだ改善されるのか、それとも全体(モデル)の崩壊に至る運命にあるのか?
我々は、スケーリング法則のレンズを通してモデル崩壊の理論的枠組みを開発する。
本研究では, 多様な崩壊現象を発見し, スケーリングの損失を分析し, 数世代でスケーリングをシフトし, スキルの「アンラーニング」を行い, 混合データと合成データを用いてグロッキングを行う。
本理論は,算術タスクにおけるトランスフォーマーを用いた大規模実験と,大言語モデルllama2を用いたテキスト生成によって検証される。
関連論文リスト
- Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws Do Not Scale [87.76714490248779]
大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Inverse Scaling: When Bigger Isn't Better [64.993426536523]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文 参考訳(メタデータ) (2022-08-17T19:13:17Z) - Is the Number of Trainable Parameters All That Actually Matters? [2.624902795082451]
スケーリング法を仮に騙し、より大規模なモデルを安価にトレーニングする方法を調査する。
テスト損失と計算の間のスケーリングの関係は、トレーニング可能なパラメータの実際の数にのみ依存することがわかった。
論文 参考訳(メタデータ) (2021-09-24T12:43:58Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。