論文の概要: Gauss-Newton Dynamics for Neural Networks: A Riemannian Optimization Perspective
- arxiv url: http://arxiv.org/abs/2412.14031v3
- Date: Fri, 20 Dec 2024 15:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 13:01:46.335044
- Title: Gauss-Newton Dynamics for Neural Networks: A Riemannian Optimization Perspective
- Title(参考訳): ニューラルネットワークのためのガウスニュートンダイナミクス:リーマン最適化の視点から
- Authors: Semih Cayci,
- Abstract要約: 我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切に選択された減衰係数を持つレバンス・マルカルト力学は、不条件カーネルに対してロバスト性をもたらすことを示す。
- 参考スコア(独自算出の注目度): 3.48097307252416
- License:
- Abstract: We analyze the convergence of Gauss-Newton dynamics for training neural networks with smooth activation functions. In the underparameterized regime, the Gauss-Newton gradient flow induces a Riemannian gradient flow on a low-dimensional, smooth, embedded submanifold of the Euclidean output space. Using tools from Riemannian optimization, we prove \emph{last-iterate} convergence of the Riemannian gradient flow to the optimal in-class predictor at an \emph{exponential rate} that is independent of the conditioning of the Gram matrix, \emph{without} requiring explicit regularization. We further characterize the critical impacts of the neural network scaling factor and the initialization on the convergence behavior. In the overparameterized regime, we show that the Levenberg-Marquardt dynamics with an appropriately chosen damping factor yields robustness to ill-conditioned kernels, analogous to the underparameterized regime. These findings demonstrate the potential of Gauss-Newton methods for efficiently optimizing neural networks, particularly in ill-conditioned problems where kernel and Gram matrices have small singular values.
- Abstract(参考訳): 我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
極小化状態において、ガウス・ニュートン勾配流はユークリッド出力空間の低次元、滑らかな埋め込み部分多様体上でリーマン勾配流を誘導する。
リーマン最適化のツールを用いて、明示的な正則化を必要とするグラマー行列 \emph{without} の条件付けとは無関係な \emph{exponential rate} において、リーマン勾配フローの最適クラス予測子への 'emph{last-iterate} 収束を証明した。
さらに、ニューラルネットワークスケーリング係数の臨界影響と収束挙動の初期化を特徴付ける。
過度パラメータ化された状態において、適切に選択された減衰係数を持つレバンス・マルカルト力学が、過度パラメータ化された状態に類似した不飽和核に堅牢性をもたらすことを示す。
これらの結果は、特にカーネルおよびグラム行列が特異値が小さい不条件問題において、効率よくニューラルネットワークを最適化するガウスニュートン法の可能性を示している。
関連論文リスト
- On the Convergence Analysis of Over-Parameterized Variational Autoencoders: A Neural Tangent Kernel Perspective [7.580900499231056]
変分自動エンコーダ(VAE)は、生成タスクの強力な確率モデルとして登場した。
本稿では, 軽微な仮定の下でのVAEの数学的証明について述べる。
また、過剰に最適化されたSNNが直面する最適化問題と、カーネルリッジ(KRR)問題との新たな接続を確立する。
論文 参考訳(メタデータ) (2024-09-09T06:10:31Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - A Structure-Guided Gauss-Newton Method for Shallow ReLU Neural Network [18.06366638807982]
浅いReLUニューラルネットワークを用いて最小二乗問題を解くための構造誘導型ガウスニュートン法(SgGN)を提案する。
目的関数の最小二乗構造とニューラルネットワーク構造の両方を効果的に活用する。
論文 参考訳(メタデータ) (2024-04-07T20:24:44Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Stable Neural Flows [15.318500611972441]
ニューラルネットワークによってパラメータ化されたエネルギー汎関数上で軌道が進化するニューラル常微分方程式(ニューラルODE)の確率的に安定な変種を導入する。
学習手順は最適制御問題としてキャストされ、随伴感性分析に基づいて近似解が提案される。
論文 参考訳(メタデータ) (2020-03-18T06:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。