論文の概要: Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks
- arxiv url: http://arxiv.org/abs/2202.00293v4
- Date: Wed, 14 Jun 2023 14:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:34:42.650389
- Title: Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks
- Title(参考訳): 高次元2層ニューラルネットワークにおける確率勾配の位相図
- Authors: Rodrigo Veiga, Ludovic Stephan, Bruno Loureiro, Florent Krzakala,
Lenka Zdeborov\'a
- Abstract要約: 本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。
我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
- 参考スコア(独自算出の注目度): 22.823904789355495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the non-convex optimization landscape, over-parametrized shallow
networks are able to achieve global convergence under gradient descent. The
picture can be radically different for narrow networks, which tend to get stuck
in badly-generalizing local minima. Here we investigate the cross-over between
these two regimes in the high-dimensional setting, and in particular
investigate the connection between the so-called mean-field/hydrodynamic regime
and the seminal approach of Saad & Solla. Focusing on the case of Gaussian
data, we study the interplay between the learning rate, the time scale, and the
number of hidden units in the high-dimensional dynamics of stochastic gradient
descent (SGD). Our work builds on a deterministic description of SGD in
high-dimensions from statistical physics, which we extend and for which we
provide rigorous convergence rates.
- Abstract(参考訳): 非凸最適化の展望にもかかわらず、過パラメータの浅いネットワークは勾配降下下でグローバル収束を達成することができる。
この画像は狭いネットワークでは根本的に異なるが、局所的な極小視では行き詰まる傾向がある。
本稿では,これら2つのレジームの高次元設定におけるクロスオーバーについて検討し,特に,いわゆる平均場・流体力学的レジームとsaad & sollaの独創的アプローチとの関係について検討する。
ガウスデータに着目し,確率勾配勾配(SGD)の高次元的ダイナミクスにおける学習速度,時間スケール,隠れた単位数との相互作用について検討した。
我々の研究は、統計的物理学から高次元のSGDを決定論的に記述し、それを拡張し、厳密な収束率を提供する。
関連論文リスト
- Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Leveraging the two timescale regime to demonstrate convergence of neural
networks [1.2328446298523066]
ニューラルネットワークのトレーニング力学を2時間体制で研究する。
勾配勾配勾配は最適流動勾配の記述に従って振る舞うが、この体制の外では失敗する可能性があることを示す。
論文 参考訳(メタデータ) (2023-04-19T11:27:09Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - From high-dimensional & mean-field dynamics to dimensionless ODEs: A
unifying approach to SGD in two-layers networks [26.65398696336828]
本書はガウスデータとラベルに基づいて訓練された2層ニューラルネットワークの1パス勾配降下(SGD)ダイナミクスについて検討する。
我々は、人口リスクに関する十分な統計量の観点から、決定論的かつ低次元の記述を通じて、制限力学を厳格に分析する。
論文 参考訳(メタデータ) (2023-02-12T09:50:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the non-universality of deep learning: quantifying the cost of
symmetry [24.86176236641865]
雑音勾配降下法(GD)で学習したニューラルネットワークによる学習の計算限界を証明する。
我々は、完全接続ネットワークが二進ハイパーキューブと単位球上で弱学習できる機能の特徴付けを行う。
我々の手法は勾配降下(SGD)に拡張され、完全に接続されたネットワークで学習するための非自明な結果を示す。
論文 参考訳(メタデータ) (2022-08-05T11:54:52Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。
本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。
DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文 参考訳(メタデータ) (2020-04-23T15:25:09Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。