論文の概要: Cutting Some Slack for SGD with Adaptive Polyak Stepsizes
- arxiv url: http://arxiv.org/abs/2202.12328v1
- Date: Thu, 24 Feb 2022 19:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 15:22:51.248442
- Title: Cutting Some Slack for SGD with Adaptive Polyak Stepsizes
- Title(参考訳): 適応型polyakステップによるsgd用slackのカット
- Authors: Robert M. Gower and Mathieu Blondel and Nidham Gazagnadou and Fabian
Pedregosa
- Abstract要約: SPS (Stochastic gradient with a Polyak Stepsize) 適応法について考察する。
まず、SPSとその最近の変種は、すべて非線形問題に適用されたパッシブ・攻撃的手法の拡張と見なせることを示す。
我々はこの知見を用いて非線形モデルに適した新しいSPS法を開発した。
- 参考スコア(独自算出の注目度): 35.024680868164445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning the step size of stochastic gradient descent is tedious and error
prone. This has motivated the development of methods that automatically adapt
the step size using readily available information. In this paper, we consider
the family of SPS (Stochastic gradient with a Polyak Stepsize) adaptive
methods. These are methods that make use of gradient and loss value at the
sampled points to adaptively adjust the step size. We first show that SPS and
its recent variants can all be seen as extensions of the Passive-Aggressive
methods applied to nonlinear problems. We use this insight to develop new
variants of the SPS method that are better suited to nonlinear models. Our new
variants are based on introducing a slack variable into the interpolation
equations. This single slack variable tracks the loss function across
iterations and is used in setting a stable step size. We provide extensive
numerical results supporting our new methods and a convergence theory.
- Abstract(参考訳): 確率的勾配降下のステップサイズのチューニングは退屈で誤りやすい。
これにより、利用可能な情報を使ってステップサイズを自動的に適応する手法の開発が動機となった。
本稿では,SPS(Stochastic gradient with a Polyak Stepsize)適応手法のファミリについて考察する。
これらは、サンプル点における勾配と損失値を利用してステップサイズを適応的に調整する手法である。
まず, 非線形問題に適用したパッシブ・アグレッシブ法の拡張として, spsとその最近の変種を考察する。
我々はこの知見を用いて非線形モデルに適合するsps法の新しい変種を開発する。
新しい変種は補間方程式にslack変数を導入することに基づいている。
この単一のスラック変数は、繰り返しにわたって損失関数を追跡し、安定したステップサイズを設定するのに使用される。
我々は新しい手法と収束理論を支持する広範な数値結果を提供する。
関連論文リスト
- AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size [42.84471753630676]
本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。
適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。
適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
論文 参考訳(メタデータ) (2024-02-07T21:19:05Z) - Adaptive Learning Rates for Faster Stochastic Gradient Methods [6.935471115003109]
いくつかの2次凸勾配法を改善するための適応的なステップサイズ戦略を提案する。
最初の方法は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、この手法の最近の発展の延長である。
第2の手法であるGraDSは「勾配の多様性」によってステップサイズを再スケールする
論文 参考訳(メタデータ) (2022-08-10T11:36:00Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search) [32.24244211281863]
データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。
一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。
これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
論文 参考訳(メタデータ) (2020-06-11T21:23:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。