論文の概要: Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search)
- arxiv url: http://arxiv.org/abs/2006.06835v3
- Date: Thu, 18 Feb 2021 22:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:12:28.043316
- Title: Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search)
- Title(参考訳): 適応勾配法は、過剰パラメータ化によりより高速に収束する(ただし、行探索をすべき)
- Authors: Sharan Vaswani, Issam Laradji, Frederik Kunstner, Si Yi Meng, Mark
Schmidt, Simon Lacoste-Julien
- Abstract要約: データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。
一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。
これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
- 参考スコア(独自算出の注目度): 32.24244211281863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods are typically used for training over-parameterized
models. To better understand their behaviour, we study a simplistic setting --
smooth, convex losses with models over-parameterized enough to interpolate the
data. In this setting, we prove that AMSGrad with constant step-size and
momentum converges to the minimizer at a faster $O(1/T)$ rate. When
interpolation is only approximately satisfied, constant step-size AMSGrad
converges to a neighbourhood of the solution at the same rate, while AdaGrad is
robust to the violation of interpolation. However, even for simple convex
problems satisfying interpolation, the empirical performance of both methods
heavily depends on the step-size and requires tuning, questioning their
adaptivity. We alleviate this problem by automatically determining the
step-size using stochastic line-search or Polyak step-sizes. With these
techniques, we prove that both AdaGrad and AMSGrad retain their convergence
guarantees, without needing to know problem-dependent constants. Empirically,
we demonstrate that these techniques improve the convergence and generalization
of adaptive gradient methods across tasks, from binary classification with
kernel mappings to multi-class classification with deep networks.
- Abstract(参考訳): 適応勾配法は通常、過パラメータモデルのトレーニングに使用される。
それらの振る舞いをよりよく理解するために、データの補間に十分なオーバーパラメータを持つモデルによる、単純化された設定(スムース、凸損失)を研究した。
この設定では、一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを示す。
補間がほぼ満たされているとき、一定のステップサイズ AMSGrad は解の近傍に同じ速度で収束し、AdaGrad は補間違反に対して堅牢である。
しかしながら、補間を満足する単純な凸問題であっても、どちらの方法も経験的性能はステップサイズに大きく依存し、適応性に疑問を呈するチューニングを必要とする。
確率線探索やpolyakステップサイズを用いてステップサイズを自動的に決定することにより,この問題を軽減する。
これらの手法を用いて, AdaGrad と AMSGrad の両者が, 問題依存定数を知らなくても収束保証を維持していることを示す。
実験により,これらの手法は,カーネルマッピングを用いたバイナリ分類からディープネットワークによるマルチクラス分類まで,タスク間の適応勾配法の収束と一般化を改善できることを実証する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - An Adaptive Incremental Gradient Method With Support for Non-Euclidean
Norms [19.41328109094503]
そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。
一般的な設定の下で収束保証を確立する。
我々は、非ユークリッドノルムをサポートするためにSAGAの分析を改善した。
論文 参考訳(メタデータ) (2022-04-28T09:43:07Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Adaptive Gradient Methods for Constrained Convex Optimization and
Variational Inequalities [32.51470158863247]
AdaACSAとAdaAGD+は制約付き凸最適化の高速化手法である。
我々はこれらを、同じ特徴を享受し、標準の非加速収束率を達成する、より単純なアルゴリズムAdaGrad+で補完する。
論文 参考訳(メタデータ) (2020-07-17T09:10:21Z) - Conditional gradient methods for stochastically constrained convex
minimization [54.53786593679331]
構造凸最適化問題に対する条件勾配に基づく2つの新しい解法を提案する。
私たちのフレームワークの最も重要な特徴は、各イテレーションで制約のサブセットだけが処理されることです。
提案アルゴリズムは, 条件勾配のステップとともに, 分散の低減と平滑化に頼り, 厳密な収束保証を伴っている。
論文 参考訳(メタデータ) (2020-07-07T21:26:35Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。