論文の概要: A Neural Scaling Law from Lottery Ticket Ensembling
- arxiv url: http://arxiv.org/abs/2310.02258v1
- Date: Tue, 3 Oct 2023 17:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:48:13.928641
- Title: A Neural Scaling Law from Lottery Ticket Ensembling
- Title(参考訳): 宝くじのセンシングによるニューラルネットワークのスケーリング則
- Authors: Ziming Liu, Max Tegmark
- Abstract要約: Sharma & Kaplan は MSE の損失が $N-alpha$, $alpha=4/d$ として崩壊すると予測した。
単純な1D問題は、それらの予測と異なるスケーリング法(alpha=1$)を示す。
- 参考スコア(独自算出の注目度): 19.937894875216507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws (NSL) refer to the phenomenon where model performance
improves with scale. Sharma & Kaplan analyzed NSL using approximation theory
and predict that MSE losses decay as $N^{-\alpha}$, $\alpha=4/d$, where $N$ is
the number of model parameters, and $d$ is the intrinsic input dimension.
Although their theory works well for some cases (e.g., ReLU networks), we
surprisingly find that a simple 1D problem $y=x^2$ manifests a different
scaling law ($\alpha=1$) from their predictions ($\alpha=4$). We opened the
neural networks and found that the new scaling law originates from lottery
ticket ensembling: a wider network on average has more "lottery tickets", which
are ensembled to reduce the variance of outputs. We support the ensembling
mechanism by mechanistically interpreting single neural networks, as well as
studying them statistically. We attribute the $N^{-1}$ scaling law to the
"central limit theorem" of lottery tickets. Finally, we discuss its potential
implications for large language models and statistical physics-type theories of
learning.
- Abstract(参考訳): 神経スケーリングの法則(neural scaling law、nsl)は、モデルのパフォーマンスがスケールによって向上する現象を指す。
Sharma & Kaplan は近似理論を用いて NSL を分析し、MSE の損失は $N^{-\alpha}$, $\alpha=4/d$ と予測した。
それらの理論はいくつかのケース(例えば ReLU ネットワーク)でうまく機能するが、単純な 1D 問題 $y=x^2$ は予想と異なるスケーリング法(\alpha=1$)を示す(\alpha=4$)。
ニューラルネットワークをオープンし、新しいスケーリング法則が宝くじのセンスリングに由来することを突き止めた: 平均的なネットワークは、アウトプットのばらつきを減らすために、より多くの「宝くじ」を持っている。
我々は,単一ニューラルネットワークを機械的に解釈し,統計的に研究することで,その理解を支援する。
我々は、$n^{-1}$のスケーリング則を抽選券の「中央極限定理」に分類する。
最後に,大きな言語モデルや統計物理学的な学習理論にその可能性について論じる。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文 参考訳(メタデータ) (2021-09-29T02:06:33Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Learning Curve Theory [21.574781022415365]
スケーリング法則(Scaling law)とは、トレーニングやテストエラーの削減、すなわちより多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算をいう。
我々は、任意のパワーに対して$n-beta$の学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析する。
論文 参考訳(メタデータ) (2021-02-08T09:25:31Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。