Fugu-MT 論文翻訳(概要): A Tale of Tails: Model Collapse as a Change of Scaling Laws

論文の概要: A Tale of Tails: Model Collapse as a Change of Scaling Laws

arxiv url: http://arxiv.org/abs/2402.07043v1
Date: Sat, 10 Feb 2024 21:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 17:56:01.127690
Title: A Tale of Tails: Model Collapse as a Change of Scaling Laws
Title（参考訳）: 尾の物語: スケーリング法則の変化としてのモデル崩壊
Authors: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton and Julia Kempe
Abstract要約: 私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか? スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
参考スコア（独自算出の注目度）: 12.45096748949042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
Abstract（参考訳）: AIモデルのサイズが大きくなるにつれて、ニューラルスケーリング法則は、容量とオリジナルの(人間または自然)トレーニングデータのサイズを増大させるときに、大きなモデルの改善を予測する重要なツールとなっている。しかし、人気モデルの広範な利用は、オンラインデータとテキストのエコシステムが、徐々に大量の合成データを含むように共進化することを意味する。本稿では, 合成データが学習コーパスに導入される必然的体制において, スケーリング法則はどのように変化するのかを問う。将来のモデルはまだ改善されるのか、それとも全体(モデル)の崩壊に至る運命にあるのか? 我々は、スケーリング法則のレンズを通してモデル崩壊の理論的枠組みを開発する。本研究では, 多様な崩壊現象を発見し, スケーリングの損失を分析し, 数世代でスケーリングをシフトし, スキルの「アンラーニング」を行い, 混合データと合成データを用いてグロッキングを行う。本理論は,算術タスクにおけるトランスフォーマーを用いた大規模実験と,大言語モデルllama2を用いたテキスト生成によって検証される。

関連論文リスト

Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文参考訳（メタデータ） (2024-12-10T22:01:38Z)
Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文参考訳（メタデータ） (2024-11-11T01:05:28Z)
How Far is Video Generation from World Model: A Physical Law Perspective [101.24278831609249]
OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
論文参考訳（メタデータ） (2024-11-04T18:53:05Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文参考訳（メタデータ） (2024-06-28T02:20:54Z)
Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文参考訳（メタデータ） (2024-04-02T21:51:39Z)
Towards Neural Scaling Laws on Graphs [54.435688297561015]
深層グラフモデルの性能はモデルやデータセットのサイズによってどのように変化するかを検討する。モデルスケーリングでは,パラメータ数に関わらず,モデルのスケーリング行動に影響を与える上でも,モデルの深さが重要な役割を果たす。我々は,不規則なグラフサイズに対応するために,ノード数やエッジ数を基準としてデータスケーリングの法則を改革する。
論文参考訳（メタデータ） (2024-02-03T06:17:21Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文参考訳（メタデータ） (2023-07-05T15:32:21Z)
Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文参考訳（メタデータ） (2023-06-15T20:11:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。