論文の概要: A Stochastic Proximal Polyak Step Size
- arxiv url: http://arxiv.org/abs/2301.04935v2
- Date: Thu, 4 May 2023 09:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:22:09.812948
- Title: A Stochastic Proximal Polyak Step Size
- Title(参考訳): 確率的近位ポリアークステップサイズ
- Authors: Fabian Schaipp, Robert M. Gower, Michael Ulbrich
- Abstract要約: ポリアクステップサイズ (SPS) は勾配降下の適応的なステップサイズスキームとして登場した。
正規化項を扱えるSPSの近位変種を開発する。
ProxSPSは調整が容易で、正規化の存在下では安定である。
- 参考スコア(独自算出の注目度): 6.252236971703546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the stochastic Polyak step size (SPS) has emerged as a competitive
adaptive step size scheme for stochastic gradient descent. Here we develop
ProxSPS, a proximal variant of SPS that can handle regularization terms.
Developing a proximal variant of SPS is particularly important, since SPS
requires a lower bound of the objective function to work well. When the
objective function is the sum of a loss and a regularizer, available estimates
of a lower bound of the sum can be loose. In contrast, ProxSPS only requires a
lower bound for the loss which is often readily available. As a consequence, we
show that ProxSPS is easier to tune and more stable in the presence of
regularization. Furthermore for image classification tasks, ProxSPS performs as
well as AdamW with little to no tuning, and results in a network with smaller
weight parameters. We also provide an extensive convergence analysis for
ProxSPS that includes the non-smooth, smooth, weakly convex and strongly convex
setting.
- Abstract(参考訳): 近年,確率的ポリアクステップサイズ (SPS) が,確率的勾配降下のための適応的ステップサイズスキームとして出現している。
ここでは正規化項を扱えるSPSの近位変種であるProxSPSを開発する。
SPS の近位変種の開発は特に重要であり、SPS は目的関数の下位境界をうまく機能させる必要がある。
目的関数が損失と正規化子の和であるとき、その和の下限の利用可能な推定はゆるくすることができる。
対照的に、ProxSPSは損失に対して低いバウンダリしか必要としない。
その結果,正規化の存在下では,ProxSPSのチューニングが容易で,より安定であることが示唆された。
さらに、画像分類タスクでは、ProxSPSはAdamWと同様にチューニングをほとんど行わず、結果としてより小さな重みパラメータを持つネットワークとなる。
また,非平滑,滑らか,弱凸,強凸の設定を含む ProxSPS に対して広範な収束解析を行う。
関連論文リスト
- Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance [10.11126899274029]
我々はヘビーボール法(SHB)の更新規則に適した新しいポリアク型変種を提案し,検討する。
MomSPS$_max$ に対して、(仮定なしで)凸および滑らかな問題に対する解の近傍に SHB の保証を提供する。
その他の2つの変種である MomDecSPS と MomAdaSPS は、SHB の最初の適応的なステップサイズであり、事前の知識なしに正確な最小値への収束を保証する。
論文 参考訳(メタデータ) (2024-06-06T15:08:06Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence
and Variance Reduction [26.9632099249085]
AdaSPSとAdaSLSと呼ばれる2種類の新しいSPSとSLSを提案し、非補間条件における収束を保証する。
我々は, AdaSPS と AdaSLS に新しい分散低減技術を導入し, $smashwidetildemathcalO(n+1/epsilon)$グラデーション評価を必要とするアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-08-11T10:17:29Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Sharper Analysis for Minibatch Stochastic Proximal Point Methods:
Stability, Smoothness, and Deviation [41.082982732100696]
我々は,凸複合リスク最小化問題の解法として,近位点法(M-SPP)のミニバッチ変種について検討した。
ミニバッチサイズが$n$で二次数が$T$のM-SPPは、予想外収束の速さを楽しむことを示す。
小さい$n$-large-$T$設定では、この結果はSPP型アプローチの最もよく知られた結果を大幅に改善する。
論文 参考訳(メタデータ) (2023-01-09T00:13:34Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。