論文の概要: A Solvable Model of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2210.16859v1
- Date: Sun, 30 Oct 2022 15:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:35:10.123158
- Title: A Solvable Model of Neural Scaling Laws
- Title(参考訳): 神経スケーリング則の可解モデル
- Authors: Alexander Maloney, Daniel A. Roberts, James Sully
- Abstract要約: 大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
- 参考スコア(独自算出の注目度): 72.8349503901712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models with a huge number of parameters, when trained on near
internet-sized number of tokens, have been empirically shown to obey neural
scaling laws: specifically, their performance behaves predictably as a power
law in either parameters or dataset size until bottlenecked by the other
resource. To understand this better, we first identify the necessary properties
allowing such scaling laws to arise and then propose a statistical model -- a
joint generative data model and random feature model -- that captures this
neural scaling phenomenology. By solving this model in the dual limit of large
training set size and large number of parameters, we gain insight into (i) the
statistical structure of datasets and tasks that lead to scaling laws, (ii) the
way nonlinear feature maps, such as those provided by neural networks, enable
scaling laws when trained on these datasets, (iii) the optimality of the
equiparameterization scaling of training sets and parameters, and (iv) whether
such scaling laws can break down and how they behave when they do. Key findings
are the manner in which the power laws that occur in the statistics of natural
datasets are extended by nonlinear random feature maps and then translated into
power-law scalings of the test loss and how the finite extent of the data's
spectral power law causes the model's performance to plateau.
- Abstract(参考訳): インターネットに近い数のトークンでトレーニングされた大量のパラメータを持つ大規模な言語モデルは、ニューラルネットワークのスケーリング法則に従うことを実証的に証明されている。
これをよりよく理解するために、まずそのようなスケーリング法則を生じさせるために必要な特性を特定し、次にこの神経スケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
このモデルを、大規模なトレーニングセットサイズと多数のパラメータの二重極限で解くことで、我々は洞察を得ることができる。
(i)法律のスケーリングにつながるデータセット及びタスクの統計構造。
(ii) ニューラルネットワークが提供するような非線形特徴マップは、これらのデータセットでトレーニングされた場合、スケーリング法則を可能にする。
(iii)訓練セットとパラメータの等パラメータ化スケーリングの最適性、
(iv)そのようなスケーリング法則が崩壊しうるか、どのように振る舞うか。
主な発見は、自然データセットの統計で発生する電力法則が、非線形ランダムな特徴写像によって拡張され、テスト損失の電力則スケーリングに変換される方法と、データのスペクトルパワー法則の有限範囲が、モデルの性能をプラトーにどのように引き起こすかである。
関連論文リスト
- Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。