論文の概要: On Uniform Boundedness Properties of SGD and its Momentum Variants
- arxiv url: http://arxiv.org/abs/2201.10245v1
- Date: Tue, 25 Jan 2022 11:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 01:29:22.012732
- Title: On Uniform Boundedness Properties of SGD and its Momentum Variants
- Title(参考訳): SGDとそのモメンタムバリアントの均一性について
- Authors: Xiaoyu Wang and Mikael Johansson
- Abstract要約: 勾配勾配勾配アルゴリズムの軌道に沿った反復率と関数値の均一な有界性について検討する。
広範に使われているステップデカイやコサインを含むステップサイズファミリーがステップサイズを再起動する(あるいは使用しない)ことは、一様有界な反復と関数値をもたらすことを示す。
- 参考スコア(独自算出の注目度): 38.41217525394239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A theoretical, and potentially also practical, problem with stochastic
gradient descent is that trajectories may escape to infinity. In this note, we
investigate uniform boundedness properties of iterates and function values
along the trajectories of the stochastic gradient descent algorithm and its
important momentum variant. Under smoothness and $R$-dissipativity of the loss
function, we show that broad families of step-sizes, including the widely used
step-decay and cosine with (or without) restart step-sizes, result in uniformly
bounded iterates and function values. Several important applications that
satisfy these assumptions, including phase retrieval problems, Gaussian mixture
models and some neural network classifiers, are discussed in detail.
- Abstract(参考訳): 確率勾配降下に関する理論的、潜在的に実用的な問題は、軌道が無限大に逃れることである。
本稿では,逐次勾配降下アルゴリズムとその重要な運動量変化の軌跡に沿ったイテレートと関数値の一様有界性について検討する。
損失関数の滑らかさとr$-分散性の下では、広く使われているステップデケイやコサインを含む幅広いステップサイズ族がステップサイズを再開する(またはしない)ことにより、一様に有界なイテレートと関数値が得られる。
これらの仮定を満たすいくつかの重要な応用として、位相探索問題、ガウス混合モデル、ニューラルネットワーク分類器について詳述する。
関連論文リスト
- On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Stochastic Langevin Differential Inclusions with Applications to Machine
Learning [8.669338893753885]
機械学習問題におけるLangevin型の流れと特性に関する基礎的な結果を示す。
特に, 自由エネルギー関数の最小化とともに, 解の強い存在を示す。
論文 参考訳(メタデータ) (2022-06-23T08:29:17Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。