論文の概要: A Neural Scaling Law from the Dimension of the Data Manifold
- arxiv url: http://arxiv.org/abs/2004.10802v1
- Date: Wed, 22 Apr 2020 19:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:30:46.860450
- Title: A Neural Scaling Law from the Dimension of the Data Manifold
- Title(参考訳): データマニフォールド次元からのニューラルスケーリング法則
- Authors: Utkarsh Sharma, Jared Kaplan
- Abstract要約: データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
- 参考スコア(独自算出の注目度): 8.656787568717252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When data is plentiful, the loss achieved by well-trained neural networks
scales as a power-law $L \propto N^{-\alpha}$ in the number of network
parameters $N$. This empirical scaling law holds for a wide variety of data
modalities, and may persist over many orders of magnitude. The scaling law can
be explained if neural models are effectively just performing regression on a
data manifold of intrinsic dimension $d$. This simple theory predicts that the
scaling exponents $\alpha \approx 4/d$ for cross-entropy and mean-squared error
losses. We confirm the theory by independently measuring the intrinsic
dimension and the scaling exponents in a teacher/student framework, where we
can study a variety of $d$ and $\alpha$ by dialing the properties of random
teacher networks. We also test the theory with CNN image classifiers on several
datasets and with GPT-type language models.
- Abstract(参考訳): データが豊富であれば、十分に訓練されたニューラルネットワークによる損失は、ネットワークパラメータ数$n$のパワールール$l \propto n^{-\alpha}$としてスケールする。
この経験的スケーリング法則は、様々なデータモダリティを保持し、多くの桁にわたって持続する可能性がある。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数 $\alpha \approx 4/d$ をクロスエントロピーと平均二乗誤差損失に対して予測する。
本理論は,教師/学生の内在的次元とスケーリング指数を独立に測定することで検証し,ランダムな教師ネットワークの特性を測ることで,$d$と$\alpha$の多様性を研究できる。
また,いくつかのデータセットとGPT型言語モデルを用いて,CNN画像分類器を用いてその理論を検証した。
関連論文リスト
- Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Learning Curve Theory [21.574781022415365]
スケーリング法則(Scaling law)とは、トレーニングやテストエラーの削減、すなわちより多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算をいう。
我々は、任意のパワーに対して$n-beta$の学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析する。
論文 参考訳(メタデータ) (2021-02-08T09:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。