論文の概要: Limiting fluctuation and trajectorial stability of multilayer neural
networks with mean field training
- arxiv url: http://arxiv.org/abs/2110.15954v1
- Date: Fri, 29 Oct 2021 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:28:15.822316
- Title: Limiting fluctuation and trajectorial stability of multilayer neural
networks with mean field training
- Title(参考訳): 平均場訓練による多層ニューラルネットワークの限界変動と軌道安定性
- Authors: Huy Tuan Pham, Phan-Minh Nguyen
- Abstract要約: ネットワーク深度における多層ネットワークの場合の変動について検討する。
この2階のMF限界におけるニューロン間の複雑な相互作用の枠組みを実演する。
極限定理は、この極限と大幅ネットワークのゆらぎを関連付けることが証明されている。
- 参考スコア(独自算出の注目度): 3.553493344868413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mean field (MF) theory of multilayer neural networks centers around a
particular infinite-width scaling, where the learning dynamics is closely
tracked by the MF limit. A random fluctuation around this infinite-width limit
is expected from a large-width expansion to the next order. This fluctuation
has been studied only in shallow networks, where previous works employ heavily
technical notions or additional formulation ideas amenable only to that case.
Treatment of the multilayer case has been missing, with the chief difficulty in
finding a formulation that captures the stochastic dependency across not only
time but also depth.
In this work, we initiate the study of the fluctuation in the case of
multilayer networks, at any network depth. Leveraging on the neuronal embedding
framework recently introduced by Nguyen and Pham, we systematically derive a
system of dynamical equations, called the second-order MF limit, that captures
the limiting fluctuation distribution. We demonstrate through the framework the
complex interaction among neurons in this second-order MF limit, the
stochasticity with cross-layer dependency and the nonlinear time evolution
inherent in the limiting fluctuation. A limit theorem is proven to relate
quantitatively this limit to the fluctuation of large-width networks.
We apply the result to show a stability property of gradient descent MF
training: in the large-width regime, along the training trajectory, it
progressively biases towards a solution with "minimal fluctuation" (in fact,
vanishing fluctuation) in the learned output function, even after the network
has been initialized at or has converged (sufficiently fast) to a global
optimum. This extends a similar phenomenon previously shown only for shallow
networks with a squared loss in the ERM setting, to multilayer networks with a
loss function that is not necessarily convex in a more general setting.
- Abstract(参考訳): 多層ニューラルネットワークの平均場(mf)理論は、学習ダイナミクスがmfの限界によって密接に追跡される、特定の無限幅スケーリングを中心としている。
この無限幅極限の周りのランダムなゆらぎは、大幅展開から次階への拡張に期待できる。
この揺らぎは浅いネットワークでのみ研究され、それまでの研究では、その場合にのみ適用可能な技術的な概念や追加の定式化のアイデアが用いられていた。
多層症例の治療法は欠如しており、時間だけでなく深さにもまたがる確率的依存関係を捉える定式化を見つけるのが困難である。
本研究では,多層ネットワークの場合,任意のネットワーク深さで変動の研究を開始する。
nguyen と pham が最近導入したニューロン埋め込みフレームワークを利用して, 2次 mf 極限と呼ばれる力学方程式系を体系的に導出し, 制限ゆらぎ分布を捉える。
この2階のMF制限におけるニューロン間の複雑な相互作用、層間依存性による確率性、および制限変動に固有の非線形時間進化の枠組みを通して示す。
極限定理は、この極限を大幅ネットワークの変動と定量的に関連付けることが証明されている。
本研究では, 勾配降下mfトレーニングの安定性を示すために, 学習経路に沿って, ネットワークが初期化され, 収束した(十分高速)後にも, 学習出力関数の「最小変動」(実際には, 消失変動) を伴う解に徐々に偏りを与える。
この現象は、ERM設定において2乗損失を持つ浅層ネットワークにのみ示される同様の現象を、より一般的な設定では必ずしも凸しない損失関数を持つ多層ネットワークに拡張する。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Mean-field analysis for heavy ball methods: Dropout-stability,
connectivity, and global convergence [17.63517562327928]
本稿では,2層および3層からなるニューラルネットワークに着目し,SHBの解の性質を厳密に把握する。
有限幅ネットワークにおける平均場限界とSHBダイナミクスの間には,大域的最適度への収束性を示し,定量的な境界を与える。
論文 参考訳(メタデータ) (2022-10-13T08:08:25Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Global Convergence of Three-layer Neural Networks in the Mean Field
Regime [3.553493344868413]
平均場系では、ニューラルネットワークは適切にスケールされ、幅は無限大になる傾向にあり、学習ダイナミクスは平均場限として知られる非線形かつ非自明な動的限界に傾向がある。
最近の研究は、この分析を2層ネットワークに適用し、グローバル収束保証を提供した。
平均場における非正規化フィードフォワード三層ネットワークに対する大域収束結果を示す。
論文 参考訳(メタデータ) (2021-05-11T17:45:42Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - A Rigorous Framework for the Mean Field Limit of Multilayer Neural
Networks [9.89901717499058]
ニューラルネットワークを平均場に埋め込むための数学的に厳密なフレームワークを開発する。
ネットワークの幅が大きくなるにつれて、ネットワークの学習軌道は制限によってうまく捉えられることが示される。
我々は、大幅多層ネットワークのいくつかの特性を証明した。
論文 参考訳(メタデータ) (2020-01-30T16:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。