論文の概要: Asymptotic and Non-Asymptotic Convergence of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis
- arxiv url: http://arxiv.org/abs/2409.05023v2
- Date: Tue, 19 Nov 2024 13:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:19.499851
- Title: Asymptotic and Non-Asymptotic Convergence of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis
- Title(参考訳): 新たな停止時間解析による非凸最適化のためのAdaGradの漸近的・非漸近的収束
- Authors: Ruinan Jin, Xiaoyu Wang, Baoxiang Wang,
- Abstract要約: 我々はAdaの革新的な包括的分析を導入し、文献の既存のギャップを埋める。
AdaGradの期待は、ほぼ確実に、平均的にもたらされます。
また,既存の結果と無関係に予測された平均非a-bpt-d勾配を実証した。
- 参考スコア(独自算出の注目度): 17.34603953600226
- License:
- Abstract: Adaptive optimizers have emerged as powerful tools in deep learning, dynamically adjusting the learning rate based on iterative gradients. These adaptive methods have significantly succeeded in various deep learning tasks, outperforming stochastic gradient descent (SGD). However, despite AdaGrad's status as a cornerstone of adaptive optimization, its theoretical analysis has not adequately addressed key aspects such as asymptotic convergence and non-asymptotic convergence rates in non-convex optimization scenarios. This study aims to provide a comprehensive analysis of AdaGrad, filling the existing gaps in the literature. We introduce an innovative stopping time technique from probabilistic theory, which allows us to establish the stability of AdaGrad under mild conditions for the first time. We further derive the asymptotically almost sure and mean-square convergence for AdaGrad. In addition, we demonstrate the near-optimal non-asymptotic convergence rate measured by the average-squared gradients in expectation, which is stronger than the existing high-probability results. The techniques developed in this work are potentially independent of interest for future research on other adaptive stochastic algorithms.
- Abstract(参考訳): アダプティブ・オプティマイザは、反復的な勾配に基づいて学習率を動的に調整する、ディープラーニングの強力なツールとして登場した。
これらの適応的手法は、確率勾配降下(SGD)よりも優れた、様々な深層学習タスクに大きく成功している。
しかし、AdaGradは適応最適化の基盤としての地位にあるにもかかわらず、その理論解析は非凸最適化シナリオにおける漸近収束や非漸近収束率といった重要な側面に適切に対応していない。
本研究は,AdaGradを包括的に分析し,既存の文献のギャップを埋めることを目的としている。
本稿では,AdaGradの安定性を軽度条件下で初めて確立できる確率論的理論から,革新的な停止時間手法を提案する。
さらに、AdaGrad に対する漸近的にほぼ確実かつ平均二乗収束を導出する。
さらに,予測における平均二乗勾配で測定された近近近近近近近近近近近近近近近近近近収束速度を,既存の高確率結果よりも強く示す。
この研究で開発された技術は、他の適応確率的アルゴリズムの将来の研究には、潜在的に無関心である。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Stability and Generalization of Stochastic Optimization with Nonconvex
and Nonsmooth Problems [34.68590236021379]
本稿では,アルゴリズム的安定度と定量的勾配と人口間のギャップについて述べる。
これらのアルゴリズムを、暗黙の規則的な反復ステップサイズと適応勾配勾配を達成するためにどのように適用するかを示す。
論文 参考訳(メタデータ) (2022-06-14T18:14:30Z) - A theoretical and empirical study of new adaptive algorithms with
additional momentum steps and shifted updates for stochastic non-convex
optimization [0.0]
適応最適化アルゴリズムは学習分野の鍵となる柱を表現していると考えられる。
本稿では,異なる非滑らかな目的問題に対する適応運動量法を提案する。
論文 参考訳(メタデータ) (2021-10-16T09:47:57Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Convergence Properties of Stochastic Hypergradients [38.64355126221992]
大規模データセットにおける低レベルの問題が経験的リスクである場合に重要となる過勾配の近似スキームについて検討する。
本研究では,理論解析を支援する数値実験を行い,実際にハイパーグラディエントを用いることの利点を示す。
論文 参考訳(メタデータ) (2020-11-13T20:50:36Z) - A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文 参考訳(メタデータ) (2020-07-28T15:06:22Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。