論文の概要: Dual Natural Gradient Descent for Scalable Training of Physics-Informed Neural Networks
- arxiv url: http://arxiv.org/abs/2505.21404v1
- Date: Tue, 27 May 2025 16:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.803037
- Title: Dual Natural Gradient Descent for Scalable Training of Physics-Informed Neural Networks
- Title(参考訳): 物理インフォームドニューラルネットワークのスケーラブルトレーニングのための2次元自然勾配ディフレッシュ
- Authors: Anas Jnini, Flavio Vella,
- Abstract要約: 物理インフォームドニューラルネットワーク(PINN)の学習を著しく促進する自然段階的手法
textitDual Natural Gradient Descent (D-NGD)を紹介する。
D-NGDは、残留空間におけるガウス-ニュートンステップを計算し、ジオデシック加速度補正を無視可能な余剰コストで拡張し、モデスト$m$とNystrom-preconditioned conjugate-gradient solverをより大きい$m$で提供する。
- 参考スコア(独自算出の注目度): 1.3351610617039973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural-gradient methods markedly accelerate the training of Physics-Informed Neural Networks (PINNs), yet their Gauss--Newton update must be solved in the parameter space, incurring a prohibitive $O(n^3)$ time complexity, where $n$ is the number of network trainable weights. We show that exactly the same step can instead be formulated in a generally smaller residual space of size $m = \sum_{\gamma} N_{\gamma} d_{\gamma}$, where each residual class $\gamma$ (e.g. PDE interior, boundary, initial data) contributes $N_{\gamma}$ collocation points of output dimension $d_{\gamma}$. Building on this insight, we introduce \textit{Dual Natural Gradient Descent} (D-NGD). D-NGD computes the Gauss--Newton step in residual space, augments it with a geodesic-acceleration correction at negligible extra cost, and provides both a dense direct solver for modest $m$ and a Nystrom-preconditioned conjugate-gradient solver for larger $m$. Experimentally, D-NGD scales second-order PINN optimization to networks with up to 12.8 million parameters, delivers one- to three-order-of-magnitude lower final error $L^2$ than first-order methods (Adam, SGD) and quasi-Newton methods, and -- crucially -- enables natural-gradient training of PINNs at this scale on a single GPU.
- Abstract(参考訳): 物理情報ニューラルネットワーク(PINN)のトレーニングを著しく加速する自然な段階的手法であるが、ガウス-ニュートンの更新はパラメータ空間で解決され、禁止的な$O(n^3)$時間複雑性が生じる。
ここでは、各残余類 $\gamma$ (e g PDE の内部、境界、初期データ) が出力次元 $d_{\gamma}$ の共役点に$N_{\gamma}$ を与える。
本稿では,この知見に基づいて,D-NGD (textit{Dual Natural Gradient Descent}) を紹介する。
D-NGDは、残留空間におけるガウス-ニュートンステップを計算し、ジオデシック加速度補正を無視可能な余剰コストで拡張し、モデスト$m$とNystrom-preconditioned conjugate-gradient solverをより大きい$m$で提供する。
実験的に、D-NGDは最大1280万のパラメータを持つネットワークに2次PINN最適化をスケールし、一階から3階までの低い最終誤差を$L^2$で1次メソッド(Adam、SGD)と準ニュートンメソッドより提供し、そして...重要なことに、このスケールで1つのGPU上でPINNを自然に訓練することができる。
関連論文リスト
- Enabling Automatic Differentiation with Mollified Graph Neural Operators [75.3183193262225]
本稿では,任意の測地上での自動微分とエンフェクサクタクティック勾配を計算するための最初の手法であるモリファイドグラフニューラル演算子 (mGNO) を提案する。
正規格子上のPDEの例では、mGNOとオートグレードの組み合わせにより、L2相対データの誤差は有限差に比べて20倍減少した。
また、物理損失のみを使用し、有限差分に必要な分解能よりもはるかに低い精度で、非構造化点雲上のPDEをシームレスに解くことができる。
論文 参考訳(メタデータ) (2025-04-11T06:16:30Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and
Sparsity [9.077741848403791]
パラメータの損失は、トレーニングセットの層単位でのアクティベーション$Z_ell$の損失に再計算可能であることを示す。
この改革は、機能学習の背景にあるダイナミクスを明らかにします。
論文 参考訳(メタデータ) (2022-05-31T14:10:15Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。