論文の概要: Non-Asymptotic Optimization and Generalization Bounds for Stochastic Gauss-Newton in Overparameterized Models
- arxiv url: http://arxiv.org/abs/2511.03972v1
- Date: Thu, 06 Nov 2025 01:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.266113
- Title: Non-Asymptotic Optimization and Generalization Bounds for Stochastic Gauss-Newton in Overparameterized Models
- Title(参考訳): 過パラメータモデルにおける確率ガウスニュートンの非漸近最適化と一般化境界
- Authors: Semih Cayci,
- Abstract要約: 本稿では,Levenberg-Marquardt ダンピングとミニバッチサンプリングによる行列Gauss-Newton (SGN) 法の解析を行った。
我々の理論的結果は、最適化経路に沿ってガウスニュートンの最小固有値が大きいと、より厳密な安定性境界が得られるSGNの好適な一般化規則を同定する。
- 参考スコア(独自算出の注目度): 5.076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important question in deep learning is how higher-order optimization methods affect generalization. In this work, we analyze a stochastic Gauss-Newton (SGN) method with Levenberg-Marquardt damping and mini-batch sampling for training overparameterized deep neural networks with smooth activations in a regression setting. Our theoretical contributions are twofold. First, we establish finite-time convergence bounds via a variable-metric analysis in parameter space, with explicit dependencies on the batch size, network width and depth. Second, we derive non-asymptotic generalization bounds for SGN using uniform stability in the overparameterized regime, characterizing the impact of curvature, batch size, and overparameterization on generalization performance. Our theoretical results identify a favorable generalization regime for SGN in which a larger minimum eigenvalue of the Gauss-Newton matrix along the optimization path yields tighter stability bounds.
- Abstract(参考訳): ディープラーニングにおける重要な疑問は、高次最適化手法が一般化にどのように影響するかである。
本研究では,レバンス・マルカルト減衰法とミニバッチサンプリング法を用いて確率的ガウス・ニュートン法を解析し,レグレッションセッティングにおけるスムーズなアクティベーションを伴う過パラメータ深層ニューラルネットワークのトレーニングを行う。
私たちの理論的貢献は2倍です。
まず,パラメータ空間における変数メトリック解析によって有限時間収束境界を確立し,バッチサイズ,ネットワーク幅,深さに明示的に依存する。
第2に,SGNの非漸近一般化境界を過パラメータ化状態の均一安定性を用いて導出し,曲率,バッチサイズ,過パラメータ化が一般化性能に与える影響を特徴付ける。
我々の理論的結果は、最適化経路に沿ってガウス・ニュートン行列の最小固有値が大きいとより厳密な安定性境界が得られるSGNの好適な一般化規則を同定する。
関連論文リスト
- A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks [3.48097307252416]
我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切な減衰スケジュールが選択されたレバンス・マルカルト力学は、潜在的に条件の悪いニューラル・タンジェント・カーネル行列にも拘わらず、高速収束率が得られることを示す。
論文 参考訳(メタデータ) (2024-12-18T16:51:47Z) - Exact Gauss-Newton Optimization for Training Deep Neural Networks [5.249805590164902]
一般化されたガウスニュートン(GN)ヘッセン近似と低ランク線形代数を組み合わせた2階最適化アルゴリズムであるExact Gauss-Newton(EGN)を提案する。
線形探索,適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。
数値実験により,EGNは多種多様な教師付き・強化学習タスクにおいて,よく訓練されたSGD,Adam,SQN,SGNの一般化性能を常に上回るか,あるいはほぼ一致していることが示された。
論文 参考訳(メタデータ) (2024-05-23T10:21:05Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Dynamics of Stochastic Momentum Methods on Large-scale, Quadratic Models [0.2741266294612776]
我々は高次元ランダム最小二乗問題に対して運動量を持つ勾配アルゴリズムのクラスを解析する。
固定運動量パラメータを持つ(小バッチ)運動量では,ステップサイズを正確に調整した場合,SGDよりも実際の性能向上は得られないことを示す。
非強凸条件では、運動量を用いてSGDよりも大きな改善が得られる。
論文 参考訳(メタデータ) (2021-06-07T15:08:24Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。