論文の概要: A High Probability Analysis of Adaptive SGD with Momentum
- arxiv url: http://arxiv.org/abs/2007.14294v1
- Date: Tue, 28 Jul 2020 15:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 01:44:50.147537
- Title: A High Probability Analysis of Adaptive SGD with Momentum
- Title(参考訳): モーメントを用いた適応型SGDの高確率解析
- Authors: Xiaoyu Li, Francesco Orabona
- Abstract要約: Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
- 参考スコア(独自算出の注目度): 22.9530287983179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) and its variants are the most used
algorithms in machine learning applications. In particular, SGD with adaptive
learning rates and momentum is the industry standard to train deep networks.
Despite the enormous success of these methods, our theoretical understanding of
these variants in the nonconvex setting is not complete, with most of the
results only proving convergence in expectation and with strong assumptions on
the stochastic gradients. In this paper, we present a high probability analysis
for adaptive and momentum algorithms, under weak assumptions on the function,
stochastic gradients, and learning rates. We use it to prove for the first time
the convergence of the gradients to zero in high probability in the smooth
nonconvex setting for Delayed AdaGrad with momentum.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)とその変種は機械学習アプリケーションで最も使われているアルゴリズムである。
特に、適応学習率と運動量を持つSGDは、ディープネットワークをトレーニングするための業界標準である。
これらの手法の膨大な成功にもかかわらず、非凸設定におけるこれらの変種に関する理論的理解は完全ではなく、ほとんどの結果は期待の収束と確率勾配の強い仮定によってのみ証明される。
本稿では,関数,確率勾配,学習率の弱い仮定の下で,適応アルゴリズムと運動量アルゴリズムの高確率解析を提案する。
我々は、モーメントを持つ遅延AdaGradの滑らかな非凸設定において、勾配の0への収束を高い確率で初めて証明するためにこれを使用する。
関連論文リスト
- Asymptotic and Non-Asymptotic Convergence of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis [17.34603953600226]
我々はAdaの革新的な包括的分析を導入し、文献の既存のギャップを埋める。
AdaGradの期待は、ほぼ確実に、平均的にもたらされます。
また,既存の結果と無関係に予測された平均非a-bpt-d勾配を実証した。
論文 参考訳(メタデータ) (2024-09-08T08:29:51Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Escaping Saddle Points Faster with Stochastic Momentum [9.485782209646445]
ディープネットワークでは、モーメントは収束時間を大幅に改善しているように見える。
我々は,SGDを高速に回避できるため,運動量が深度トレーニングを改善することを示す。
また、理想運動量パラメータの選択方法を示す。
論文 参考訳(メタデータ) (2021-06-05T23:34:02Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Stochastic Approximate Gradient Descent via the Langevin Algorithm [11.36635610546803]
本研究では,不偏勾配が自明に得られない場合の勾配勾配の代替として,近似勾配勾配(SAGD)を導入する。
SAGDは,予測最大化アルゴリズムや変分オートエンコーダといった,一般的な統計的および機械学習問題において,実験的によく機能することを示す。
論文 参考訳(メタデータ) (2020-02-13T14:29:21Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。