論文の概要: Quantitative Propagation of Chaos for SGD in Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2007.06352v2
- Date: Tue, 14 Jul 2020 06:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:43:06.592371
- Title: Quantitative Propagation of Chaos for SGD in Wide Neural Networks
- Title(参考訳): ニューラルネットワークにおけるSGDのカオスの定量的伝播
- Authors: Valentin De Bortoli, Alain Durmus, Xavier Fontaine, Umut Simsekli
- Abstract要約: 本稿では,SGD(Gradient Descent)の連続時間動作の制限挙動について検討する。
本研究では, この連続時間力学によって定義される粒子系に対して, 異なるシナリオ下での「カオスの伝播」を示す。
最小化問題の暗黙的な正則化版に対応する2つの平均場限界を求める。
- 参考スコア(独自算出の注目度): 39.35545193410871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the limiting behavior of a continuous-time
counterpart of the Stochastic Gradient Descent (SGD) algorithm applied to
two-layer overparameterized neural networks, as the number or neurons (ie, the
size of the hidden layer) $N \to +\infty$. Following a probabilistic approach,
we show 'propagation of chaos' for the particle system defined by this
continuous-time dynamics under different scenarios, indicating that the
statistical interaction between the particles asymptotically vanishes. In
particular, we establish quantitative convergence with respect to $N$ of any
particle to a solution of a mean-field McKean-Vlasov equation in the metric
space endowed with the Wasserstein distance. In comparison to previous works on
the subject, we consider settings in which the sequence of stepsizes in SGD can
potentially depend on the number of neurons and the iterations. We then
identify two regimes under which different mean-field limits are obtained, one
of them corresponding to an implicitly regularized version of the minimization
problem at hand. We perform various experiments on real datasets to validate
our theoretical results, assessing the existence of these two regimes on
classification problems and illustrating our convergence results.
- Abstract(参考訳): 本稿では,2層超パラメータニューラルネットワークに適用される確率的勾配降下(sgd)アルゴリズムの,数やニューロン(つまり隠れた層の大きさ)である$n \to +\infty$ の連続時間に対する制限挙動について検討する。
確率論的アプローチに従って,この連続時間ダイナミクスによって定義される粒子系の「カオスの伝播」を示し,粒子間の統計的相互作用が漸近的に消失することを示す。
特に、ワッサースタイン距離が与えられた距離空間における平均場mckean-vlasov方程式の解に対する任意の粒子のn$に関して定量的収束を確立する。
これまでの研究と比較して、SGDのステップサイズ列がニューロンの数や反復数に依存する可能性のある設定について考察する。
次に,それぞれ異なる平均場限界が得られた2つのレジームを同定し,そのうちの1つは手元の最小化問題の暗黙的に正規化されたバージョンに対応する。
理論的な結果を検証するために実データ集合について様々な実験を行い、分類問題におけるこれら2つのレジームの存在を評価し、収束結果を示す。
関連論文リスト
- Dimension-independent learning rates for high-dimensional classification
problems [53.622581586464634]
各RBV2$関数は、重みが有界なニューラルネットワークによって近似可能であることを示す。
次に、分類関数を近似した有界重みを持つニューラルネットワークの存在を証明する。
論文 参考訳(メタデータ) (2024-09-26T16:02:13Z) - Non-asymptotic convergence analysis of the stochastic gradient
Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with
applications to training of ReLU neural networks [8.058385158111207]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。
本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文 参考訳(メタデータ) (2024-09-25T17:21:09Z) - Proximal Interacting Particle Langevin Algorithms [0.0]
本稿では,潜時変動モデルにおける推論と学習のためのPIPLAアルゴリズムを提案する。
非微分不可能な統計モデルにおけるパラメータ推定の問題に合わせた、新しい近位IPLAファミリー内のいくつかの変種を提案する。
我々の理論と実験は、PIPLAファミリーが非微分可能モデルの潜在変数モデルにおけるパラメータ推定問題のデファクト選択であることを示している。
論文 参考訳(メタデータ) (2024-06-20T13:16:41Z) - Convergence analysis of controlled particle systems arising in deep learning: from finite to infinite sample size [1.4325734372991794]
サンプルサイズが無限に大きくなるにつれて, 関連する最適制御問題の制限挙動について検討した。
目的関数の最小値とニューラルSDEの最適パラメータの収束は,サンプルサイズNが無限大になる傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-08T04:22:55Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Asymptotic Analysis of Deep Residual Networks [6.308539010172309]
層数の増加に伴い, ディープResidual Network(ResNets)の特性について検討する。
まず、トレーニングされた重量に対するスケーリングレギュレーションの存在を、ニューラルODEの文献で暗黙的に仮定されているものとは大きく異なることを示す。
これらのスケーリングレシエーションにおける隠れ状態のダイナミクスについて検討し、ODE、収束方程式(SDE)、あるいはそれらのいずれかが得られることを示す。
論文 参考訳(メタデータ) (2022-12-15T23:55:01Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。