論文の概要: Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off
- arxiv url: http://arxiv.org/abs/2106.04795v2
- Date: Sun, 30 Jul 2023 09:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 01:23:33.955121
- Title: Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off
- Title(参考訳): 二層ニューラルネットワークの漸近理論:バイアス-分散トレードオフを超えて
- Authors: Huiyuan Wang and Wei Lin
- Abstract要約: 本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
- 参考スコア(独自算出の注目度): 10.182922771556742
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large neural networks have proved remarkably effective in modern deep
learning practice, even in the overparametrized regime where the number of
active parameters is large relative to the sample size. This contradicts the
classical perspective that a machine learning model must trade off bias and
variance for optimal generalization. To resolve this conflict, we present a
nonasymptotic generalization theory for two-layer neural networks with ReLU
activation function by incorporating scaled variation regularization.
Interestingly, the regularizer is equivalent to ridge regression from the angle
of gradient-based optimization, but plays a similar role to the group lasso in
controlling the model complexity. By exploiting this "ridge-lasso duality," we
obtain new prediction bounds for all network widths, which reproduce the double
descent phenomenon. Moreover, the overparametrized minimum risk is lower than
its underparametrized counterpart when the signal is strong, and is nearly
minimax optimal over a suitable class of functions. By contrast, we show that
overparametrized random feature models suffer from the curse of dimensionality
and thus are suboptimal.
- Abstract(参考訳): 大規模ニューラルネットワークは、サンプルサイズに対してアクティブパラメータの数が大きい過剰パラメータ化環境においても、現代のディープラーニングの実践において非常に効果的であることが証明されている。
これは、機械学習モデルが最適な一般化のためにバイアスと分散をトレードオフしなければならないという古典的な見解と矛盾する。
この対立を解決するために,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対して,スケールド変動正規化を取り入れた漸近的一般化理論を提案する。
興味深いことに、正規化子は勾配に基づく最適化の角度からリッジ回帰と等価であるが、モデルの複雑さを制御するのに群lassoと同じような役割を果たす。
この「リッジラッソ双対性(ridge-lasso duality)」を生かして、二重降下現象を再現する全てのネットワーク幅に対する新たな予測境界を得る。
さらに、過パラメータ化最小リスクは、信号が強い場合、過パラメータ化最小リスクよりも低く、適切な関数のクラスに対してほぼ最適である。
対照的に、超パラメータランダム特徴モデルは次元の呪いに苦しめられ、従って最適でないことを示した。
関連論文リスト
- The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks [26.58848653965855]
準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
論文 参考訳(メタデータ) (2022-10-07T21:14:09Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Optimal Regularization Can Mitigate Double Descent [29.414119906479954]
最適正則化を用いて二重発振現象を回避できるかどうかを検討した。
我々は、最適に調整された$ell$正規化が、ニューラルネットワークを含むより一般的なモデルの2重降下を可能にすることを実証的に実証した。
論文 参考訳(メタデータ) (2020-03-04T05:19:09Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。