論文の概要: From high-dimensional & mean-field dynamics to dimensionless ODEs: A
unifying approach to SGD in two-layers networks
- arxiv url: http://arxiv.org/abs/2302.05882v1
- Date: Sun, 12 Feb 2023 09:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:07:09.446398
- Title: From high-dimensional & mean-field dynamics to dimensionless ODEs: A
unifying approach to SGD in two-layers networks
- Title(参考訳): 高次元および平均場力学から無次元ODEへ:二層ネットワークにおけるSGDへの統一的アプローチ
- Authors: Luca Arnaboldi, Ludovic Stephan, Florent Krzakala, Bruno Loureiro
- Abstract要約: 本書はガウスデータとラベルに基づいて訓練された2層ニューラルネットワークの1パス勾配降下(SGD)ダイナミクスについて検討する。
我々は、人口リスクに関する十分な統計量の観点から、決定論的かつ低次元の記述を通じて、制限力学を厳格に分析する。
- 参考スコア(独自算出の注目度): 26.65398696336828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This manuscript investigates the one-pass stochastic gradient descent (SGD)
dynamics of a two-layer neural network trained on Gaussian data and labels
generated by a similar, though not necessarily identical, target function. We
rigorously analyse the limiting dynamics via a deterministic and
low-dimensional description in terms of the sufficient statistics for the
population risk. Our unifying analysis bridges different regimes of interest,
such as the classical gradient-flow regime of vanishing learning rate, the
high-dimensional regime of large input dimension, and the overparameterised
"mean-field" regime of large network width, covering as well the intermediate
regimes where the limiting dynamics is determined by the interplay between
these behaviours. In particular, in the high-dimensional limit, the
infinite-width dynamics is found to remain close to a low-dimensional subspace
spanned by the target principal directions. Our results therefore provide a
unifying picture of the limiting SGD dynamics with synthetic data.
- Abstract(参考訳): 本論文は、ガウスデータに基づいて訓練された2層ニューラルネットワークの1パス確率勾配降下(sgd)ダイナミクスと、類似するが必ずしも同一ではない標的関数によって生成されたラベルについて検討する。
我々は, 人口リスクに対する十分な統計量の観点から, 決定論的かつ低次元的な記述を通じて, 限界ダイナミクスを厳格に解析する。
この統一分析は,学習速度を消失させる古典的勾配流制御,大入力次元の高次元制御,大ネットワーク幅の超パラメータ「平均場」制御,およびこれらの行動間の相互作用によって制限ダイナミクスが決定される中間機構など,異なる関心のレジームを橋渡しする。
特に、高次元の極限において、無限幅のダイナミクスは、対象の主方向で広がる低次元の部分空間に近づいたままである。
そこで,本研究では合成データを用いた限界sgdダイナミクスの統一像を提供する。
関連論文リスト
- Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。
フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。
概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T13:21:44Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Asymptotic Analysis of Deep Residual Networks [6.308539010172309]
層数の増加に伴い, ディープResidual Network(ResNets)の特性について検討する。
まず、トレーニングされた重量に対するスケーリングレギュレーションの存在を、ニューラルODEの文献で暗黙的に仮定されているものとは大きく異なることを示す。
これらのスケーリングレシエーションにおける隠れ状態のダイナミクスについて検討し、ODE、収束方程式(SDE)、あるいはそれらのいずれかが得られることを示す。
論文 参考訳(メタデータ) (2022-12-15T23:55:01Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks [22.823904789355495]
本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。
我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
論文 参考訳(メタデータ) (2022-02-01T09:45:07Z) - Data-Driven Reduced-Order Modeling of Spatiotemporal Chaos with Neural
Ordinary Differential Equations [0.0]
本稿では,偏微分方程式のカオス力学を生かしたデータ駆動型還元次数モデリング手法を提案する。
次元の減少は周囲空間の予測と比較して性能を向上することがわかった。
低次元モデルでは、広い空間データに対する真の力学の短・長期統計レクリエーションに優れる。
論文 参考訳(メタデータ) (2021-08-31T20:00:33Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。