Fugu-MT 論文翻訳(概要): A Methodology Establishing Linear Convergence of Adaptive Gradient Methods under PL Inequality

論文の概要: A Methodology Establishing Linear Convergence of Adaptive Gradient Methods under PL Inequality

arxiv url: http://arxiv.org/abs/2407.12629v1
Date: Wed, 17 Jul 2024 14:56:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 16:45:33.213995
Title: A Methodology Establishing Linear Convergence of Adaptive Gradient Methods under PL Inequality
Title（参考訳）: PL不等式下での適応勾配法の線形収束性を確立する方法
Authors: Kushal Chakrabarti, Mayank Baranwal,
Abstract要約: AdaGrad と Adam は、コスト関数が滑らかで、Polyak-Lojasiewicz の不等式を満たすときに線型収束することを示す。我々のフレームワークは、他の変種Adamの線形収束解析に利用できる可能性がある。
参考スコア（独自算出の注目度）: 5.35599092568615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive gradient-descent optimizers are the standard choice for training neural network models. Despite their faster convergence than gradient-descent and remarkable performance in practice, the adaptive optimizers are not as well understood as vanilla gradient-descent. A reason is that the dynamic update of the learning rate that helps in faster convergence of these methods also makes their analysis intricate. Particularly, the simple gradient-descent method converges at a linear rate for a class of optimization problems, whereas the practically faster adaptive gradient methods lack such a theoretical guarantee. The Polyak-{\L}ojasiewicz (PL) inequality is the weakest known class, for which linear convergence of gradient-descent and its momentum variants has been proved. Therefore, in this paper, we prove that AdaGrad and Adam, two well-known adaptive gradient methods, converge linearly when the cost function is smooth and satisfies the PL inequality. Our theoretical framework follows a simple and unified approach, applicable to both batch and stochastic gradients, which can potentially be utilized in analyzing linear convergence of other variants of Adam.
Abstract（参考訳）: 適応勾配偏光オプティマイザは、ニューラルネットワークモデルをトレーニングするための標準選択である。勾配勾配よりも早く収束し、実際に顕著な性能を保っているにもかかわらず、適応最適化器はバニラ勾配降下器ほどよく理解されていない。理由は、これらの手法のより高速な収束に役立つ学習率の動的更新が、それらの分析を複雑にするからである。特に、単純な勾配差分法は一連の最適化問題に対して線形速度で収束するが、実際より高速な適応勾配法はそのような理論的な保証を欠いている。ポリアック-{\L}ojasiewicz(PL)の不等式は最も弱い既知のクラスであり、勾配線と運動量の変化の線形収束が証明されている。そこで本稿では,コスト関数が滑らかでPLの不等式を満たす場合,AdaGradとAdamの2つのよく知られた適応勾配法が線形に収束することを証明する。我々の理論的枠組みは、バッチおよび確率勾配の両方に適用可能な単純で統一的なアプローチに従う。

関連論文リスト

Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文参考訳（メタデータ） (2024-08-17T02:22:08Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文参考訳（メタデータ） (2021-12-30T00:50:30Z)
Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文参考訳（メタデータ） (2021-05-13T04:23:07Z)
Constrained and Composite Optimization via Adaptive Sampling Methods [3.4219044933964944]
本論文の動機は,制約付き最適化問題を解くための適応サンプリング手法を開発することにある。本論文で提案する手法は、f が凸(必ずしも微分可能ではない)である合成最適化問題 min f(x) + h(x) にも適用できる近位勾配法である。
論文参考訳（メタデータ） (2020-12-31T02:50:39Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)
On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文参考訳（メタデータ） (2018-08-16T20:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。