論文の概要: Leveraging the two timescale regime to demonstrate convergence of neural
networks
- arxiv url: http://arxiv.org/abs/2304.09576v1
- Date: Wed, 19 Apr 2023 11:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:41:00.860945
- Title: Leveraging the two timescale regime to demonstrate convergence of neural
networks
- Title(参考訳): ニューラルネットワークの収束を実証する2つの時間スケール体制の活用
- Authors: Pierre Marion and Rapha\"el Berthier
- Abstract要約: ニューラルネットワークのトレーニング力学を2時間体制で研究する。
勾配勾配勾配は最適流動勾配の記述に従って振る舞うが、この体制の外では失敗する可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the training dynamics of shallow neural networks, in a two-timescale
regime in which the stepsizes for the inner layer are much smaller than those
for the outer layer. In this regime, we prove convergence of the gradient flow
to a global optimum of the non-convex optimization problem in a simple
univariate setting. The number of neurons need not be asymptotically large for
our result to hold, distinguishing our result from popular recent approaches
such as the neural tangent kernel or mean-field regimes. Experimental
illustration is provided, showing that the stochastic gradient descent behaves
according to our description of the gradient flow and thus converges to a
global optimum in the two-timescale regime, but can fail outside of this
regime.
- Abstract(参考訳): 本研究では, 浅層ニューラルネットワークのトレーニングダイナミクスを, 内部層へのステップズが外側層よりもずっと小さい2時間スケールで検討した。
本研究では,非凸最適化問題の大域的最適化に勾配流の収束を簡易な単変量条件で証明する。
ニューロンの数を漸近的に増加させる必要はなく、神経接核や平均場レジームのような最近の一般的なアプローチと区別する。
実験例では, 確率勾配降下は勾配流の記述に従って挙動し, 2時間体制における大域的最適度に収束するが, この体制の外では失敗する可能性があることを示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Global Convergence of Second-order Dynamics in Two-layer Neural Networks [10.415177082023389]
近年の研究では, 2層完全連結ニューラルネットワークの場合, 勾配流は無限幅限界において大域的最適に収束することが示されている。
重球法では正の解が得られた。
我々の結果は平均場限界で機能するが、数値シミュレーションにより、大域収束は、合理的に小さなネットワークで既に発生している可能性が示唆されている。
論文 参考訳(メタデータ) (2020-07-14T07:01:57Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。