論文の概要: Global Convergence of Second-order Dynamics in Two-layer Neural Networks
- arxiv url: http://arxiv.org/abs/2007.06852v1
- Date: Tue, 14 Jul 2020 07:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:06:04.771304
- Title: Global Convergence of Second-order Dynamics in Two-layer Neural Networks
- Title(参考訳): 2層ニューラルネットワークにおける2次ダイナミクスの大域収束
- Authors: Walid Krichene, Kenneth F. Caluya, Abhishek Halder
- Abstract要約: 近年の研究では, 2層完全連結ニューラルネットワークの場合, 勾配流は無限幅限界において大域的最適に収束することが示されている。
重球法では正の解が得られた。
我々の結果は平均場限界で機能するが、数値シミュレーションにより、大域収束は、合理的に小さなネットワークで既に発生している可能性が示唆されている。
- 参考スコア(独自算出の注目度): 10.415177082023389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results have shown that for two-layer fully connected neural networks,
gradient flow converges to a global optimum in the infinite width limit, by
making a connection between the mean field dynamics and the Wasserstein
gradient flow. These results were derived for first-order gradient flow, and a
natural question is whether second-order dynamics, i.e., dynamics with
momentum, exhibit a similar guarantee. We show that the answer is positive for
the heavy ball method. In this case, the resulting integro-PDE is a nonlinear
kinetic Fokker Planck equation, and unlike the first-order case, it has no
apparent connection with the Wasserstein gradient flow. Instead, we study the
variations of a Lyapunov functional along the solution trajectories to
characterize the stationary points and to prove convergence. While our results
are asymptotic in the mean field limit, numerical simulations indicate that
global convergence may already occur for reasonably small networks.
- Abstract(参考訳): 近年, 2層完全連結ニューラルネットワークでは, 平均場力学とワッサーシュタイン勾配流との接続により, 勾配流は無限幅限界における大域的最適に収束することが示されている。
これらの結果は一階の勾配流のために導出され、自然な疑問は二階の力学、すなわち運動量を持つ力学が同様の保証を示すかどうかである。
その結果,重球法では正の解が得られた。
この場合、結果の積分 pde は非線形運動論的フォッカープランク方程式であり、一階の場合とは異なり、ワッサースタイン勾配流とは明確な関係を持たない。
代わりに、解軌道に沿ったリアプノフ汎関数の変種を研究し、定常点を特徴付け、収束を証明する。
平均場限界は漸近的であるが,数値シミュレーションにより,大域収束は比較的小さなネットワークで既に発生している可能性が示唆された。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Proving Linear Mode Connectivity of Neural Networks via Optimal
Transport [27.794244660649085]
この経験的観察を理論的に説明する枠組みを提供する。
ワッサーシュタイン収束率を規定する支持重み分布ニューロンがモード接続性とどのように相関するかを示す。
論文 参考訳(メタデータ) (2023-10-29T18:35:05Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Leveraging the two timescale regime to demonstrate convergence of neural
networks [1.2328446298523066]
ニューラルネットワークのトレーニング力学を2時間体制で研究する。
勾配勾配勾配は最適流動勾配の記述に従って振る舞うが、この体制の外では失敗する可能性があることを示す。
論文 参考訳(メタデータ) (2023-04-19T11:27:09Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Non-asymptotic approximations of neural networks by Gaussian processes [7.56714041729893]
ランダムな重みを持つ場合、ガウス過程によって広いニューラルネットワークが近似される程度を研究する。
ネットワークの幅が無限大になるにつれて、その法則はガウス過程に収束する。
論文 参考訳(メタデータ) (2021-02-17T10:19:26Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。