論文の概要: Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise
- arxiv url: http://arxiv.org/abs/2510.13680v1
- Date: Wed, 15 Oct 2025 15:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.7438
- Title: Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise
- Title(参考訳): アダムかガウスニュートンか?ベーシアライメントとSGDノイズの比較研究
- Authors: Bingbin Liu, Rachit Bansal, Depen Morwani, Nikhil Vyas, David Alvarez-Melis, Sham M. Kakade,
- Abstract要約: 2つの主要なアプローチは、Adam と Gauss-Newton (GN) の手法に基づいている。
本稿では,これら2つの対角的プレコンディショニング手法を比較し,この2つの重要な要素,すなわち,プリコンディショナーにおけるベースの選択と,ミニバッチによるノイズの影響を比較した。
- 参考スコア(独自算出の注目度): 47.09204878445274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagonal preconditioners are computationally feasible approximate to second-order optimizers, which have shown significant promise in accelerating training of deep learning models. Two predominant approaches are based on Adam and Gauss-Newton (GN) methods: the former leverages statistics of current gradients and is the de-factor optimizers for neural networks, and the latter uses the diagonal elements of the Gauss-Newton matrix and underpins some of the recent diagonal optimizers such as Sophia. In this work, we compare these two diagonal preconditioning methods through the lens of two key factors: the choice of basis in the preconditioner, and the impact of gradient noise from mini-batching. To gain insights, we analyze these optimizers on quadratic objectives and logistic regression under all four quadrants. We show that regardless of the basis, there exist instances where Adam outperforms both GN$^{-1}$ and GN$^{-1/2}$ in full-batch settings. Conversely, in the stochastic regime, Adam behaves similarly to GN$^{-1/2}$ for linear regression under a Gaussian data assumption. These theoretical results are supported by empirical studies on both convex and non-convex objectives.
- Abstract(参考訳): 対角プレコンディショナーは2階最適化器に近似可能であり、深層学習モデルの訓練を加速する上で大きな可能性を示唆している。
前者は現在の勾配の統計を利用しており、ニューラルネットワークのデファクタオプティマイザであり、後者はガウス・ニュートン行列の対角要素を使用し、最近のソフィアのような対角最適化器のいくつかを支える。
本研究では,これら2つの対角的プレコンディショニング法を,前コンディショナーにおけるベースの選択と,ミニバッチによる勾配雑音の影響の2つの重要な要因のレンズを通して比較する。
そこで本研究では,これらの最適化手法を4つの四元数に対して2次的目的とロジスティック回帰に基づいて解析する。
基礎に関係なく、Adam が GN$^{-1}$ と GN$^{-1/2}$ の両方をフルバッチ設定で上回る例が存在することを示す。
逆に、確率的状態において、アダムはガウス的データ仮定の下で線形回帰に対してGN$^{-1/2}$と同じような振る舞いをする。
これらの理論的結果は、凸目的と非凸目的の両方に関する実証的研究によって支持される。
関連論文リスト
- Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。