論文の概要: A Dynamical Central Limit Theorem for Shallow Neural Networks
- arxiv url: http://arxiv.org/abs/2008.09623v3
- Date: Sat, 26 Mar 2022 10:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:29:44.407541
- Title: A Dynamical Central Limit Theorem for Shallow Neural Networks
- Title(参考訳): 浅層ニューラルネットワークに対する動的中心極限理論
- Authors: Zhengdao Chen, Grant M. Rotskoff, Joan Bruna, Eric Vanden-Eijnden
- Abstract要約: 平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
- 参考スコア(独自算出の注目度): 48.66103132697071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent theoretical works have characterized the dynamics of wide shallow
neural networks trained via gradient descent in an asymptotic mean-field limit
when the width tends towards infinity. At initialization, the random sampling
of the parameters leads to deviations from the mean-field limit dictated by the
classical Central Limit Theorem (CLT). However, since gradient descent induces
correlations among the parameters, it is of interest to analyze how these
fluctuations evolve. Here, we use a dynamical CLT to prove that the asymptotic
fluctuations around the mean limit remain bounded in mean square throughout
training. The upper bound is given by a Monte-Carlo resampling error, with a
variance that that depends on the 2-norm of the underlying measure, which also
controls the generalization error. This motivates the use of this 2-norm as a
regularization term during training. Furthermore, if the mean-field dynamics
converges to a measure that interpolates the training data, we prove that the
asymptotic deviation eventually vanishes in the CLT scaling. We also complement
these results with numerical experiments.
- Abstract(参考訳): 最近の理論的研究は、幅が無限に傾く傾向にある漸近平均場限界における勾配降下によって訓練された広い浅層ニューラルネットワークのダイナミクスを特徴付けている。
初期化において、パラメータのランダムサンプリングは古典的中央極限定理(CLT)によって規定される平均場限界から逸脱する。
しかし、勾配降下はパラメータ間の相関を誘導するため、これらの変動がどのように進化するかを分析することが重要である。
ここでは, 平均極限付近の漸近的変動が, トレーニングを通して平均正方形に有界であることを証明するために, 動的CLTを用いる。
上界はモンテカルロ再サンプリング誤差によって与えられ、下層の測度の2ノルムに依存する分散は一般化誤差も制御する。
この2-ノルムは、トレーニング中に正規化用語として使われる。
さらに、平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、漸近的偏差が最終的にCLTスケーリングでなくなることが証明される。
また,これらの結果を数値実験で補完する。
関連論文リスト
- Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Sharp Lower Bounds on the Approximation Rate of Shallow Neural Networks [0.0]
浅部ニューラルネットワークの近似速度に対して, 急激な下界を証明した。
これらの下界は、有界変動を持つシグモノイド活性化関数と、ReLUのパワーである活性化関数の両方に適用できる。
論文 参考訳(メタデータ) (2021-06-28T22:01:42Z) - Global Convergence of Second-order Dynamics in Two-layer Neural Networks [10.415177082023389]
近年の研究では, 2層完全連結ニューラルネットワークの場合, 勾配流は無限幅限界において大域的最適に収束することが示されている。
重球法では正の解が得られた。
我々の結果は平均場限界で機能するが、数値シミュレーションにより、大域収束は、合理的に小さなネットワークで既に発生している可能性が示唆されている。
論文 参考訳(メタデータ) (2020-07-14T07:01:57Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。