論文の概要: The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes
- arxiv url: http://arxiv.org/abs/2212.12147v1
- Date: Fri, 23 Dec 2022 04:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:16:54.423221
- Title: The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes
- Title(参考訳): 怠け者および富裕層におけるネットワークの分散制限行動の開始
- Authors: Alexander Atanasov, Blake Bordelon, Sabarish Sainathan, Cengiz
Pehlevan
- Abstract要約: 無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
- 参考スコア(独自算出の注目度): 75.59720049837459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For small training set sizes $P$, the generalization error of wide neural
networks is well-approximated by the error of an infinite width neural network
(NN), either in the kernel or mean-field/feature-learning regime. However,
after a critical sample size $P^*$, we empirically find the finite-width
network generalization becomes worse than that of the infinite width network.
In this work, we empirically study the transition from infinite-width behavior
to this variance limited regime as a function of sample size $P$ and network
width $N$. We find that finite-size effects can become relevant for very small
dataset sizes on the order of $P^* \sim \sqrt{N}$ for polynomial regression
with ReLU networks. We discuss the source of these effects using an argument
based on the variance of the NN's final neural tangent kernel (NTK). This
transition can be pushed to larger $P$ by enhancing feature learning or by
ensemble averaging the networks. We find that the learning curve for regression
with the final NTK is an accurate approximation of the NN learning curve. Using
this, we provide a toy model which also exhibits $P^* \sim \sqrt{N}$ scaling
and has $P$-dependent benefits from feature learning.
- Abstract(参考訳): 小さなトレーニングセットサイズが$P$の場合、広いニューラルネットワークの一般化誤差は、カーネルまたは平均フィールド/フィーチャーラーニングシステムにおいて無限幅ニューラルネットワーク(NN)の誤差によってよく近似される。
しかし、臨界サンプルサイズが$P^*$になると、有限幅ネットワークの一般化は無限幅ネットワークのそれよりも悪くなる。
本研究では、無限幅の挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として経験的に研究する。
有限サイズ効果は、ReLUネットワークによる多項式回帰に対して$P^* \sim \sqrt{N}$の順序で非常に小さなデータセットサイズに関係する。
NNの最終的なニューラルネットワークカーネル(NTK)の分散に基づく議論を用いて、これらの効果の源泉について論じる。
この移行は、機能学習の強化やネットワーク平均化によって、より大きな$p$にプッシュすることができる。
最終的なNTKによる回帰学習曲線は,NN学習曲線の正確な近似であることがわかった。
これを使って,$p^* \sim \sqrt{n}$ scalingを示すトイモデルと,機能学習による$p$依存のメリットを提供します。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。