論文の概要: A Solvable Model of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2210.16859v1
- Date: Sun, 30 Oct 2022 15:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:35:10.123158
- Title: A Solvable Model of Neural Scaling Laws
- Title(参考訳): 神経スケーリング則の可解モデル
- Authors: Alexander Maloney, Daniel A. Roberts, James Sully
- Abstract要約: 大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
- 参考スコア(独自算出の注目度): 72.8349503901712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models with a huge number of parameters, when trained on near
internet-sized number of tokens, have been empirically shown to obey neural
scaling laws: specifically, their performance behaves predictably as a power
law in either parameters or dataset size until bottlenecked by the other
resource. To understand this better, we first identify the necessary properties
allowing such scaling laws to arise and then propose a statistical model -- a
joint generative data model and random feature model -- that captures this
neural scaling phenomenology. By solving this model in the dual limit of large
training set size and large number of parameters, we gain insight into (i) the
statistical structure of datasets and tasks that lead to scaling laws, (ii) the
way nonlinear feature maps, such as those provided by neural networks, enable
scaling laws when trained on these datasets, (iii) the optimality of the
equiparameterization scaling of training sets and parameters, and (iv) whether
such scaling laws can break down and how they behave when they do. Key findings
are the manner in which the power laws that occur in the statistics of natural
datasets are extended by nonlinear random feature maps and then translated into
power-law scalings of the test loss and how the finite extent of the data's
spectral power law causes the model's performance to plateau.
- Abstract(参考訳): インターネットに近い数のトークンでトレーニングされた大量のパラメータを持つ大規模な言語モデルは、ニューラルネットワークのスケーリング法則に従うことを実証的に証明されている。
これをよりよく理解するために、まずそのようなスケーリング法則を生じさせるために必要な特性を特定し、次にこの神経スケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
このモデルを、大規模なトレーニングセットサイズと多数のパラメータの二重極限で解くことで、我々は洞察を得ることができる。
(i)法律のスケーリングにつながるデータセット及びタスクの統計構造。
(ii) ニューラルネットワークが提供するような非線形特徴マップは、これらのデータセットでトレーニングされた場合、スケーリング法則を可能にする。
(iii)訓練セットとパラメータの等パラメータ化スケーリングの最適性、
(iv)そのようなスケーリング法則が崩壊しうるか、どのように振る舞うか。
主な発見は、自然データセットの統計で発生する電力法則が、非線形ランダムな特徴写像によって拡張され、テスト損失の電力則スケーリングに変換される方法と、データのスペクトルパワー法則の有限範囲が、モデルの性能をプラトーにどのように引き起こすかである。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Laws Do Not Scale [87.76714490248779]
大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Explaining Neural Scaling Laws [12.382036568738242]
よく訓練されたニューラルネットワークのテスト損失は、しばしば正確なパワーロースケーリング関係に従う。
これらのスケーリング法則を説明・連結する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と解像度制限のスケーリング挙動を特定します。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。