Fugu-MT 論文翻訳(概要): Learning Curve Theory

論文の概要: Learning Curve Theory

arxiv url: http://arxiv.org/abs/2102.04074v1
Date: Mon, 8 Feb 2021 09:25:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 09:16:36.772149
Title: Learning Curve Theory
Title（参考訳）: 学習曲線理論
Authors: Marcus Hutter
Abstract要約: スケーリング法則(Scaling law)とは、トレーニングやテストエラーの削減、すなわちより多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算をいう。我々は、任意のパワーに対して$n-beta$の学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析する。
参考スコア（独自算出の注目度）: 21.574781022415365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently a number of empirical "universal" scaling law papers have been published, most notably by OpenAI. `Scaling laws' refers to power-law decreases of training or test error w.r.t. more data, larger neural networks, and/or more compute. In this work we focus on scaling w.r.t. data size $n$. Theoretical understanding of this phenomenon is largely lacking, except in finite-dimensional models for which error typically decreases with $n^{-1/2}$ or $n^{-1}$, where $n$ is the sample size. We develop and theoretically analyse the simplest possible (toy) model that can exhibit $n^{-\beta}$ learning curves for arbitrary power $\beta>0$, and determine whether power laws are universal or depend on the data distribution.
Abstract（参考訳）: 最近、多くの実証的な「ユニバーサル」スケール法論文が、特にOpenAIによって出版された。スケーリング則」とは、訓練やテストエラーのパワーロー低減を意味する。より多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算。この作業ではw.r.t.のスケーリングに重点を置いている。データサイズは$n$。この現象の理論的理解はほとんど欠けているが、エラーは通常$n^{-1/2}$または$n^{-1}$で減少する有限次元モデルでは$n$がサンプルサイズである。我々は、任意のパワーに対して$n^{-\beta}$学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析し、電力法則が普遍的かデータ分布に依存するかを決定する。

関連論文リスト

Improved Scaling Laws in Linear Regression via Data Reuse [30.68341507745991]
データの再利用は線形回帰における既存のスケーリング法則を改善することができることを示す。これはデータ再利用によるスケーリング法則の改善(すなわち、データ制約されたレシエーションで$L>N$を選択する)を示唆している。
論文参考訳（メタデータ） (2025-06-10T03:39:29Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文参考訳（メタデータ） (2024-06-12T17:53:29Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
A Neural Scaling Law from Lottery Ticket Ensembling [19.937894875216507]
Sharma & Kaplan は MSE の損失が $N-alpha$, $alpha=4/d$ として崩壊すると予測した。単純な1D問題は、それらの予測と異なるスケーリング法(alpha=1$)を示す。
論文参考訳（メタデータ） (2023-10-03T17:58:33Z)
Effective Minkowski Dimension of Deep Nonparametric Regression: Function Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文参考訳（メタデータ） (2023-06-26T17:13:31Z)
Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文参考訳（メタデータ） (2022-06-22T18:00:00Z)
$p$-Generalized Probit Regression and Scalable Maximum Likelihood Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。 p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文参考訳（メタデータ） (2022-03-25T10:54:41Z)
Locality defeats the curse of dimensionality in convolutional teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文参考訳（メタデータ） (2021-06-16T08:27:31Z)
Estimating Stochastic Linear Combination of Non-linear Regressions Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文参考訳（メタデータ） (2020-10-19T07:15:38Z)
The Information Bottleneck Problem and Its Applications in Machine Learning [53.57797720793437]
近年,機械学習システムの推論能力が急上昇し,社会の様々な側面において重要な役割を担っている。情報ボトルネック(IB)理論は、ディープラーニング(DL)システムを分析するための大胆な情報理論パラダイムとして登場した。本チュートリアルでは,この抽象原理の情報理論的起源と最近のDLへの影響について考察する。
論文参考訳（メタデータ） (2020-04-30T16:48:51Z)
A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文参考訳（メタデータ） (2020-04-22T19:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。