論文の概要: Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks
- arxiv url: http://arxiv.org/abs/2408.00573v1
- Date: Thu, 1 Aug 2024 14:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:26:35.127243
- Title: Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks
- Title(参考訳): 過パラメータ化物理インフォームニューラルネットワークにおける自然勾配の収束解析
- Authors: Xianliang Xu, Ting Du, Wang Kong, Ye Li, Zhongyi Huang,
- Abstract要約: 勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
回帰問題である$L2$の場合、学習率は$mathcalO(lambda_n2)$から$mathcalO(1/|bmHinfty|_2)$に改善できる。
我々はさらに、2層物理情報ニューラルネットワーク(PINN)の訓練におけるGDの手法を一般化する。
- 参考スコア(独自算出の注目度): 3.680127959836384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: First-order methods, such as gradient descent (GD) and stochastic gradient descent (SGD) have been proven effective in training neural networks. In the setting of over-parameterization, there is a line of work demonstrating that randomly initialized (stochastic) gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. However, the learning rate of GD in training two-layer neural networks has a poor dependence on the sample size and the Gram matrix, resulting in a slow training process. In this paper, we show that for the $L^2$ regression problems, the learning rate can be improved from $\mathcal{O}(\lambda_0/n^2)$ to $\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$, which implies that GD enjoys a faster convergence rate. Moreover, we further generalize the method for GD in training two-layer Physics-Informed Neural Networks (PINNs), showing a similar improvement for the learning rate. Although the improved learning rate depends mildly on the Gram matrix, we still need to set it small enough in practice due to the agnostic eigenvalues of the Gram matrix. More importantly, the convergence rate relies on the least eigenvalue of the Gram matrix, leading to slow convergence. In this work, we provide the convergence analysis of natural gradient descent (NGD) in training two-layer PINNs. We show that the learning rate can be $\mathcal{O}(1)$ and at this time, the convergence rate is independent of the Gram matrix.
- Abstract(参考訳): 勾配降下(GD)や確率勾配降下(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
過パラメータ化の設定では、ランダムに初期化された(確率的な)勾配勾配が二次損失関数の線形収束速度で大域最適解に収束することを示す一連の研究がある。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラムマトリックスに依存しないため, 学習過程が遅い。
本稿では,$L^2$回帰問題に対して,学習率が$\mathcal{O}(\lambda_0/n^2)$から$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$に改善できることを示し,GDはより高速な収束率を享受できることを示す。
さらに,2層式物理情報ニューラルネットワーク(PINN)の学習におけるGDの手法を一般化し,学習率に類似した改善を示す。
学習率の向上はグラマー行列にやや依存するが、グラマー行列の非依存固有値のため、実際には十分に小さく設定する必要がある。
さらに重要なことに、収束率はグラム行列の最小固有値に依存し、収束が遅くなる。
本研究では,2層PINNのトレーニングにおいて,自然勾配降下(NGD)の収束解析を行う。
学習率は$\mathcal{O}(1)$であり、この時点で収束率はグラム行列とは独立であることを示す。
関連論文リスト
- Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Fast Convergence in Learning Two-Layer Neural Networks with Separable
Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。
正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文 参考訳(メタデータ) (2023-05-22T20:30:10Z) - Over-Parameterization Exponentially Slows Down Gradient Descent for
Learning a Single Neuron [49.45105570960104]
ランダム勾配降下のグローバル収束を$Oleft(T-3right)$ rateで証明する。
これら2つの境界は、収束率の正確な特徴づけを与える。
このポテンシャル関数は緩やかに収束し、損失関数の緩やかな収束率を示す。
論文 参考訳(メタデータ) (2023-02-20T15:33:26Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。