論文の概要: Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence
- arxiv url: http://arxiv.org/abs/2002.10542v3
- Date: Mon, 22 Mar 2021 14:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:37:38.122313
- Title: Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence
- Title(参考訳): SGDのための確率的ポリアークステップサイズ:高速収束のための適応学習率
- Authors: Nicolas Loizou, Sharan Vaswani, Issam Laradji, Simon Lacoste-Julien
- Abstract要約: 本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
- 参考スコア(独自算出の注目度): 30.393999722555154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a stochastic variant of the classical Polyak step-size (Polyak,
1987) commonly used in the subgradient method. Although computing the Polyak
step-size requires knowledge of the optimal function values, this information
is readily available for typical modern machine learning applications.
Consequently, the proposed stochastic Polyak step-size (SPS) is an attractive
choice for setting the learning rate for stochastic gradient descent (SGD). We
provide theoretical convergence guarantees for SGD equipped with SPS in
different settings, including strongly convex, convex and non-convex functions.
Furthermore, our analysis results in novel convergence guarantees for SGD with
a constant step-size. We show that SPS is particularly effective when training
over-parameterized models capable of interpolating the training data. In this
setting, we prove that SPS enables SGD to converge to the true solution at a
fast rate without requiring the knowledge of any problem-dependent constants or
additional computational overhead. We experimentally validate our theoretical
results via extensive experiments on synthetic and real datasets. We
demonstrate the strong performance of SGD with SPS compared to state-of-the-art
optimization methods when training over-parameterized models.
- Abstract(参考訳): 本稿では,古典的ポリアックのステップサイズ (Polyak, 1987) の確率的変種を提案する。
Polyakのステップサイズを計算するには最適な関数値の知識が必要だが、この情報は現代の機械学習アプリケーションで容易に利用できる。
その結果,確率勾配降下 (SGD) の学習速度を設定するには,SPS (Stochastic Polyak step-size) が望ましい選択であることがわかった。
コンベックス,凸,非凸関数を含む,SPSを異なる設定で備えたSGDの理論的収束保証を提供する。
さらに,本解析により,ステップサイズが一定であるsgdに対する新しい収束保証が得られる。
SPSはトレーニングデータを補間できる過パラメータモデルのトレーニングにおいて特に有効であることを示す。
本研究では,SPSが問題依存定数の知識や計算オーバーヘッドを必要とせずに,SGDを高速で真の解に収束させることができることを示す。
我々は,合成データと実データに関する広範囲な実験を通じて,理論結果を実験的に検証した。
本稿では,SGDのSPSによる性能を,過パラメータモデルのトレーニングにおける最先端最適化法と比較した。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance [10.11126899274029]
我々はヘビーボール法(SHB)の更新規則に適した新しいポリアク型変種を提案し,検討する。
MomSPS$_max$ に対して、(仮定なしで)凸および滑らかな問題に対する解の近傍に SHB の保証を提供する。
その他の2つの変種である MomDecSPS と MomAdaSPS は、SHB の最初の適応的なステップサイズであり、事前の知識なしに正確な最小値への収束を保証する。
論文 参考訳(メタデータ) (2024-06-06T15:08:06Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence
and Variance Reduction [26.9632099249085]
AdaSPSとAdaSLSと呼ばれる2種類の新しいSPSとSLSを提案し、非補間条件における収束を保証する。
我々は, AdaSPS と AdaSLS に新しい分散低減技術を導入し, $smashwidetildemathcalO(n+1/epsilon)$グラデーション評価を必要とするアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-08-11T10:17:29Z) - SketchySGD: Reliable Stochastic Optimization via Randomized Curvature
Estimates [19.420605210427635]
SketchySGDは、サブサンプルヘッセンに対するランダム化低ランク近似を用いることで、機械学習の既存の勾配法を改善する。
固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。
条件のない設定では、最小二乗問題に対してSketchySGDはSGDよりも高速に収束することを示す。
論文 参考訳(メタデータ) (2022-11-16T01:05:41Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。