論文の概要: Learning Curve Theory
- arxiv url: http://arxiv.org/abs/2102.04074v1
- Date: Mon, 8 Feb 2021 09:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 09:16:36.772149
- Title: Learning Curve Theory
- Title(参考訳): 学習曲線理論
- Authors: Marcus Hutter
- Abstract要約: スケーリング法則(Scaling law)とは、トレーニングやテストエラーの削減、すなわちより多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算をいう。
我々は、任意のパワーに対して$n-beta$の学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析する。
- 参考スコア(独自算出の注目度): 21.574781022415365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently a number of empirical "universal" scaling law papers have been
published, most notably by OpenAI. `Scaling laws' refers to power-law decreases
of training or test error w.r.t. more data, larger neural networks, and/or more
compute. In this work we focus on scaling w.r.t. data size $n$. Theoretical
understanding of this phenomenon is largely lacking, except in
finite-dimensional models for which error typically decreases with $n^{-1/2}$
or $n^{-1}$, where $n$ is the sample size. We develop and theoretically analyse
the simplest possible (toy) model that can exhibit $n^{-\beta}$ learning curves
for arbitrary power $\beta>0$, and determine whether power laws are universal
or depend on the data distribution.
- Abstract(参考訳): 最近、多くの実証的な「ユニバーサル」スケール法論文が、特にOpenAIによって出版された。
スケーリング則」とは、訓練やテストエラーのパワーロー低減を意味する。
より多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算。
この作業ではw.r.t.のスケーリングに重点を置いている。
データサイズは$n$。
この現象の理論的理解はほとんど欠けているが、エラーは通常$n^{-1/2}$または$n^{-1}$で減少する有限次元モデルでは$n$がサンプルサイズである。
我々は、任意のパワーに対して$n^{-\beta}$学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析し、電力法則が普遍的かデータ分布に依存するかを決定する。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Neural Scaling Law from Lottery Ticket Ensembling [19.937894875216507]
Sharma & Kaplan は MSE の損失が $N-alpha$, $alpha=4/d$ として崩壊すると予測した。
単純な1D問題は、それらの予測と異なるスケーリング法(alpha=1$)を示す。
論文 参考訳(メタデータ) (2023-10-03T17:58:33Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。
我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文 参考訳(メタデータ) (2022-06-22T18:00:00Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - The Information Bottleneck Problem and Its Applications in Machine
Learning [53.57797720793437]
近年,機械学習システムの推論能力が急上昇し,社会の様々な側面において重要な役割を担っている。
情報ボトルネック(IB)理論は、ディープラーニング(DL)システムを分析するための大胆な情報理論パラダイムとして登場した。
本チュートリアルでは,この抽象原理の情報理論的起源と最近のDLへの影響について考察する。
論文 参考訳(メタデータ) (2020-04-30T16:48:51Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。