論文の概要: Learning Curve Theory
- arxiv url: http://arxiv.org/abs/2102.04074v1
- Date: Mon, 8 Feb 2021 09:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 09:16:36.772149
- Title: Learning Curve Theory
- Title(参考訳): 学習曲線理論
- Authors: Marcus Hutter
- Abstract要約: スケーリング法則(Scaling law)とは、トレーニングやテストエラーの削減、すなわちより多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算をいう。
我々は、任意のパワーに対して$n-beta$の学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析する。
- 参考スコア(独自算出の注目度): 21.574781022415365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently a number of empirical "universal" scaling law papers have been
published, most notably by OpenAI. `Scaling laws' refers to power-law decreases
of training or test error w.r.t. more data, larger neural networks, and/or more
compute. In this work we focus on scaling w.r.t. data size $n$. Theoretical
understanding of this phenomenon is largely lacking, except in
finite-dimensional models for which error typically decreases with $n^{-1/2}$
or $n^{-1}$, where $n$ is the sample size. We develop and theoretically analyse
the simplest possible (toy) model that can exhibit $n^{-\beta}$ learning curves
for arbitrary power $\beta>0$, and determine whether power laws are universal
or depend on the data distribution.
- Abstract(参考訳): 最近、多くの実証的な「ユニバーサル」スケール法論文が、特にOpenAIによって出版された。
スケーリング則」とは、訓練やテストエラーのパワーロー低減を意味する。
より多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算。
この作業ではw.r.t.のスケーリングに重点を置いている。
データサイズは$n$。
この現象の理論的理解はほとんど欠けているが、エラーは通常$n^{-1/2}$または$n^{-1}$で減少する有限次元モデルでは$n$がサンプルサイズである。
我々は、任意のパワーに対して$n^{-\beta}$学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析し、電力法則が普遍的かデータ分布に依存するかを決定する。
関連論文リスト
- A Neural Scaling Law from Lottery Ticket Ensembling [19.937894875216507]
Sharma & Kaplan は MSE の損失が $N-alpha$, $alpha=4/d$ として崩壊すると予測した。
単純な1D問題は、それらの予測と異なるスケーリング法(alpha=1$)を示す。
論文 参考訳(メタデータ) (2023-10-03T17:58:33Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。
我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文 参考訳(メタデータ) (2022-06-22T18:00:00Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - The Information Bottleneck Problem and Its Applications in Machine
Learning [53.57797720793437]
近年,機械学習システムの推論能力が急上昇し,社会の様々な側面において重要な役割を担っている。
情報ボトルネック(IB)理論は、ディープラーニング(DL)システムを分析するための大胆な情報理論パラダイムとして登場した。
本チュートリアルでは,この抽象原理の情報理論的起源と最近のDLへの影響について考察する。
論文 参考訳(メタデータ) (2020-04-30T16:48:51Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。