論文の概要: Global convergence of ResNets: From finite to infinite width using
linear parameterization
- arxiv url: http://arxiv.org/abs/2112.05531v2
- Date: Mon, 6 Feb 2023 13:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-04 22:42:13.160725
- Title: Global convergence of ResNets: From finite to infinite width using
linear parameterization
- Title(参考訳): ResNetのグローバル収束:線形パラメータ化による有限から無限の幅へ
- Authors: Rapha\"el Barboni (ENS-PSL), Gabriel Peyr\'e (ENS-PSL, CNRS),
Fran\c{c}ois-Xavier Vialard (LIGM)
- Abstract要約: 残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparametrization is a key factor in the absence of convexity to explain
global convergence of gradient descent (GD) for neural networks. Beside the
well studied lazy regime, infinite width (mean field) analysis has been
developed for shallow networks, using on convex optimization technics. To
bridge the gap between the lazy and mean field regimes, we study Residual
Networks (ResNets) in which the residual block has linear parametrization while
still being nonlinear. Such ResNets admit both infinite depth and width limits,
encoding residual blocks in a Reproducing Kernel Hilbert Space (RKHS). In this
limit, we prove a local Polyak-Lojasiewicz inequality. Thus, every critical
point is a global minimizer and a local convergence result of GD holds,
retrieving the lazy regime. In contrast with other mean-field studies, it
applies to both parametric and non-parametric cases under an expressivity
condition on the residuals. Our analysis leads to a practical and quantified
recipe: starting from a universal RKHS, Random Fourier Features are applied to
obtain a finite dimensional parameterization satisfying with high-probability
our expressivity condition.
- Abstract(参考訳): オーバーパラメトリゼーション(Overparametrization)は、ニューラルネットワークの勾配降下(GD)のグローバル収束を説明する凸性の欠如の重要な要因である。
よく研究された遅延状態の他に、凸最適化技術を用いた浅層ネットワークのための無限幅(平均場)解析が開発されている。
遅延と平均場状態のギャップを埋めるために,残差ブロックが非線形でありながら線形パラメトリゼーションを有する残留ネットワーク(Residual Networks, ResNets)について検討する。
このようなResNetは無限の深さと幅の制限を許容し、再生カーネルヒルベルト空間(RKHS)内の残留ブロックを符号化する。
この極限において、局所的ポリアック・ロジャシェヴィチ不等式が証明される。
したがって、すべての臨界点は大域的最小化器であり、gd の局所収束結果は遅延レジームを取得する。
他の平均場研究とは対照的に、残基の表現性条件下でのパラメトリックケースと非パラメトリックケースに適用される。
普遍的なrkhsから、ランダムなフーリエ特徴を適用し、高確率の表現性条件を満たす有限次元パラメータ化を得る。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - On the Global Convergence of Gradient Descent for multi-layer ResNets in
the mean-field regime [19.45069138853531]
一階法は、グローバル化された体制におけるグローバルな最適性を見出す。
ResNetが十分に大きく、精度と信頼度に応じて深さ幅がある場合、一階法はデータに適合する最適化を見つけることができる。
論文 参考訳(メタデータ) (2021-10-06T17:16:09Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。