論文の概要: Convergence Analysis of Newton's Method for Neural Networks in the Overparameterized Limit
- arxiv url: http://arxiv.org/abs/2605.08352v1
- Date: Fri, 08 May 2026 18:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.585132
- Title: Convergence Analysis of Newton's Method for Neural Networks in the Overparameterized Limit
- Title(参考訳): 過パラメータ化限界におけるニュートン法によるニューラルネットワークの収束解析
- Authors: Konstantin Riedl, Konstantinos Spiliopoulos, Justin Sirignano,
- Abstract要約: ニューラルネットワークのトレーニングダイナミクスは,対象データに対して指数関数的に高速に収束することを示す。
収束は周波数スペクトルにわたって均一であり、勾配降下に固有のスペクトルバイアスに対処する。
正規化パラメータを選択するためのスケーリング公式を同定し、隠れたユニットの数が大きくなるにつれて適切な速度で消えることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A convergence analysis is developed for the regularized Newton method for training neural networks (NNs) in the overparameterized limit. As the number of hidden units tends to infinity, the NN training dynamics converge in probability to the solution of a deterministic limit equation involving a ``Newton neural tangent kernel'' (NNTK). Explicit rates characterizing this convergence are provided and, in the infinite-width limit, we prove that the NN converges exponentially fast to the target data (i.e., a global minimizer with zero loss). We show that this convergence is uniform across the frequency spectrum, addressing the spectral bias inherent in gradient descent. The eigenvalues of the NTK for gradient descent accumulate at zero, leading to slow convergence for target data with high-frequency components. In contrast, the NNTK has uniformly lower bounded eigenvalues if the regularization parameter is selected appropriately, allowing Newton's method to converge more quickly for data with high-frequency components. Mathematical challenges that need to be addressed in our analysis include the implicit parameter update of the Newton method with a potentially indefinite Hessian matrix and the fact that the dimension of this linear system of equations tends to infinity as the NN width grows. This complicates deriving the training dynamics in the overparameterized limit as well as proving the convergence of the finite-width dynamics thereto. The analysis identifies a scaling formula for selecting the regularization parameter, which we show can vanish at a suitable rate as the number of hidden units becomes larger. We prove that, for sufficiently large numbers of hidden units, the regularized Hessian remains positive definite during training and the Newton updates for individual NN parameters converge to zero, showing that the model behaves as a linearization around the initialization.
- Abstract(参考訳): 過パラメータ化限界におけるニューラルネットワーク(NN)のトレーニングのための正規化ニュートン法に対して収束解析法を開発した。
隠れた単位の数が無限大になる傾向があるため、NNトレーニングダイナミクスは'Newton Neural Tangent kernel'' (NNTK) を含む決定論的極限方程式の解に確率的に収束する。
この収束を特徴付ける明示的な速度が提供され、無限幅の極限では、NNがターゲットデータ(すなわち、損失ゼロの大域最小化器)に指数関数的に収束することが証明される。
この収束は周波数スペクトルにわたって均一であり、勾配降下に固有のスペクトルバイアスに対処する。
勾配降下に対するNTKの固有値は0で蓄積され、高周波成分による目標データの収束が遅くなる。
対照的に、NNTKは正規化パラメータが適切に選択された場合、一様に低い有界固有値を持つため、ニュートン法は高周波成分を持つデータに対してより高速に収束することができる。
解析で解決すべき数学的課題は、潜在的に不確定なヘッセン行列を持つニュートン法の暗黙のパラメータ更新と、この方程式の線形系の次元が、NN幅が大きくなるにつれて無限大になるという事実である。
これにより、過パラメータ化極限におけるトレーニング力学の導出が複雑になり、有限幅の力学の収束が証明される。
解析では正規化パラメータを選択するためのスケーリング式を特定し,隠れたユニットの数が増えるにつれて適切な速度で消滅することを示した。
十分な数の隠れ単位に対して、正規化ヘッセンはトレーニング中に正定値のままであり、個々のNNパラメータに対するニュートン更新はゼロに収束し、初期化の周りの線形化として振る舞うことを示す。
関連論文リスト
- Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [4.554284689395686]
2層$textReLU3$ Physics-Informed Neural Networks (PINNs) のトレーニングにおいて、学習率は $mathcalO(lambda_0)$から $mathcalO (1/|bmHinfty|_2)$に改善可能であることを示す。
このような改善にもかかわらず、収束速度は依然としてグラム行列の最小固有値と結び付けられ、収束が遅くなる。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - Calibrating Neural Networks' parameters through Optimal Contraction in a Prediction Problem [0.0]
論文では、リカレントニューラルネットワーク(RNN)を、パラメータが線形な領域の収縮に変換する方法について詳述する。
次に、損失関数の特定の正規化項を持つRNNによってモデル化された予測問題は、その一階条件を解析的に表現できることを示した。
特定の条件が満たされた場合、最適なパラメータが存在し、任意の所望の精度に簡単なアルゴリズムで見つけることができる。
論文 参考訳(メタデータ) (2024-06-15T18:08:04Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Almost Sure Convergence of Dropout Algorithms for Neural Networks [0.0]
我々は、Dropout(on et al., 2012)にインスパイアされたニューラルネットワーク(NN)の乗算学習アルゴリズムの収束と速度について検討する。
本稿では,完全連結定常NNに対して,有意な有界なアクティベーション関数を持つ確率論的証明を提案する。
論文 参考訳(メタデータ) (2020-02-06T13:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。