論文の概要: Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence
- arxiv url: http://arxiv.org/abs/2002.10542v3
- Date: Mon, 22 Mar 2021 14:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:37:38.122313
- Title: Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence
- Title(参考訳): SGDのための確率的ポリアークステップサイズ:高速収束のための適応学習率
- Authors: Nicolas Loizou, Sharan Vaswani, Issam Laradji, Simon Lacoste-Julien
- Abstract要約: 本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
- 参考スコア(独自算出の注目度): 30.393999722555154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a stochastic variant of the classical Polyak step-size (Polyak,
1987) commonly used in the subgradient method. Although computing the Polyak
step-size requires knowledge of the optimal function values, this information
is readily available for typical modern machine learning applications.
Consequently, the proposed stochastic Polyak step-size (SPS) is an attractive
choice for setting the learning rate for stochastic gradient descent (SGD). We
provide theoretical convergence guarantees for SGD equipped with SPS in
different settings, including strongly convex, convex and non-convex functions.
Furthermore, our analysis results in novel convergence guarantees for SGD with
a constant step-size. We show that SPS is particularly effective when training
over-parameterized models capable of interpolating the training data. In this
setting, we prove that SPS enables SGD to converge to the true solution at a
fast rate without requiring the knowledge of any problem-dependent constants or
additional computational overhead. We experimentally validate our theoretical
results via extensive experiments on synthetic and real datasets. We
demonstrate the strong performance of SGD with SPS compared to state-of-the-art
optimization methods when training over-parameterized models.
- Abstract(参考訳): 本稿では,古典的ポリアックのステップサイズ (Polyak, 1987) の確率的変種を提案する。
Polyakのステップサイズを計算するには最適な関数値の知識が必要だが、この情報は現代の機械学習アプリケーションで容易に利用できる。
その結果,確率勾配降下 (SGD) の学習速度を設定するには,SPS (Stochastic Polyak step-size) が望ましい選択であることがわかった。
コンベックス,凸,非凸関数を含む,SPSを異なる設定で備えたSGDの理論的収束保証を提供する。
さらに,本解析により,ステップサイズが一定であるsgdに対する新しい収束保証が得られる。
SPSはトレーニングデータを補間できる過パラメータモデルのトレーニングにおいて特に有効であることを示す。
本研究では,SPSが問題依存定数の知識や計算オーバーヘッドを必要とせずに,SGDを高速で真の解に収束させることができることを示す。
我々は,合成データと実データに関する広範囲な実験を通じて,理論結果を実験的に検証した。
本稿では,SGDのSPSによる性能を,過パラメータモデルのトレーニングにおける最先端最適化法と比較した。
関連論文リスト
- Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance [10.11126899274029]
我々はヘビーボール法(SHB)の更新規則に適した新しいポリアク型変種を提案し,検討する。
MomSPS$_max$ に対して、(仮定なしで)凸および滑らかな問題に対する解の近傍に SHB の保証を提供する。
その他の2つの変種である MomDecSPS と MomAdaSPS は、SHB の最初の適応的なステップサイズであり、事前の知識なしに正確な最小値への収束を保証する。
論文 参考訳(メタデータ) (2024-06-06T15:08:06Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence
and Variance Reduction [26.9632099249085]
AdaSPSとAdaSLSと呼ばれる2種類の新しいSPSとSLSを提案し、非補間条件における収束を保証する。
我々は, AdaSPS と AdaSLS に新しい分散低減技術を導入し, $smashwidetildemathcalO(n+1/epsilon)$グラデーション評価を必要とするアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-08-11T10:17:29Z) - SketchySGD: Reliable Stochastic Optimization via Randomized Curvature
Estimates [19.420605210427635]
SketchySGDは、サブサンプルヘッセンに対するランダム化低ランク近似を用いることで、機械学習の既存の勾配法を改善する。
固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。
条件のない設定では、最小二乗問題に対してSketchySGDはSGDよりも高速に収束することを示す。
論文 参考訳(メタデータ) (2022-11-16T01:05:41Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。