論文の概要: NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizers
- arxiv url: http://arxiv.org/abs/2209.14937v1
- Date: Thu, 29 Sep 2022 16:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:26:51.368688
- Title: NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizers
- Title(参考訳): NAG-GS:半増幅,加速,ロバスト確率最適化
- Authors: Valentin Leplat, Daniil Merkulov, Aleksandr Katrutsa, Daniel
Bershatsky, Ivan Oseledets
- Abstract要約: 本稿では,2つの重要な要素に依存した,新しい,頑健で高速化された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々はNAG-GSが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
- 参考スコア(独自算出の注目度): 60.355917683497125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical machine learning models such as deep neural networks are usually
trained by using Stochastic Gradient Descent-based (SGD) algorithms. The
classical SGD can be interpreted as a discretization of the stochastic gradient
flow. In this paper we propose a novel, robust and accelerated stochastic
optimizer that relies on two key elements: (1) an accelerated Nesterov-like
Stochastic Differential Equation (SDE) and (2) its semi-implicit Gauss-Seidel
type discretization. The convergence and stability of the obtained method,
referred to as NAG-GS, are first studied extensively in the case of the
minimization of a quadratic function. This analysis allows us to come up with
an optimal step size (or learning rate) in terms of rate of convergence while
ensuring the stability of NAG-GS. This is achieved by the careful analysis of
the spectral radius of the iteration matrix and the covariance matrix at
stationarity with respect to all hyperparameters of our method. We show that
NAG-GS is competitive with state-of-the-art methods such as momentum SGD with
weight decay and AdamW for the training of machine learning models such as the
logistic regression model, the residual networks models on standard computer
vision datasets, and Transformers in the frame of the GLUE benchmark.
- Abstract(参考訳): ディープニューラルネットワークのような古典的な機械学習モデルは、通常SGDアルゴリズムを用いて訓練される。
古典的なSGDは確率勾配流の離散化と解釈できる。
本稿では,(1)Nesterov-like Stochastic Differential Equation (SDE) と (2) 半単純ガウス・シーデル型離散化という2つの重要な要素に依存した,新しい,頑健で高速化された確率最適化手法を提案する。
得られた方法の収束と安定性は nag-gs と呼ばれ、二次関数の最小化の場合に初めて広く研究された。
この分析により、NAG-GSの安定性を確保しつつ、収束率の観点から最適なステップサイズ(もしくは学習率)を導き出すことができる。
これは,本手法のすべてのハイパーパラメータに対して,反復行列のスペクトル半径と定常な共分散行列を慎重に解析することによって達成される。
その結果,nag-gsは,ロジスティック回帰モデル,標準コンピュータビジョンデータセット上の残留ネットワークモデル,glueベンチマークのフレーム内のトランスフォーマーといった機械学習モデルのトレーニングにおいて,重み減衰を伴う運動量sgdやadamwといった最先端の手法と競合することがわかった。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - A Contour Stochastic Gradient Langevin Dynamics Algorithm for
Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。
提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-19T19:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。