論文の概要: STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization
- arxiv url: http://arxiv.org/abs/2111.01040v1
- Date: Mon, 1 Nov 2021 15:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 17:27:40.108387
- Title: STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization
- Title(参考訳): STORM+:非凸最適化のためのモーメント付き完全適応SGD
- Authors: Kfir Y. Levy, Ali Kavis, Volkan Cevher
- Abstract要約: 本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
- 参考スコア(独自算出の注目度): 74.1615979057429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we investigate stochastic non-convex optimization problems where
the objective is an expectation over smooth loss functions, and the goal is to
find an approximate stationary point. The most popular approach to handling
such problems is variance reduction techniques, which are also known to obtain
tight convergence rates, matching the lower bounds in this case. Nevertheless,
these techniques require a careful maintenance of anchor points in conjunction
with appropriately selected "mega-batchsizes". This leads to a challenging
hyperparameter tuning problem, that weakens their practicality. Recently,
[Cutkosky and Orabona, 2019] have shown that one can employ recursive momentum
in order to avoid the use of anchor points and large batchsizes, and still
obtain the optimal rate for this setting. Yet, their method called STORM
crucially relies on the knowledge of the smoothness, as well a bound on the
gradient norms. In this work we propose STORM+, a new method that is completely
parameter-free, does not require large batch-sizes, and obtains the optimal
$O(1/T^{1/3})$ rate for finding an approximate stationary point. Our work
builds on the STORM algorithm, in conjunction with a novel approach to
adaptively set the learning rate and momentum parameters.
- Abstract(参考訳): 本研究では,目的が滑らかな損失関数に対する期待値である確率的非凸最適化問題を調査し,近似定常点を求めることを目的とする。
このような問題に対処する最も一般的なアプローチは分散還元法であり、これはこの場合の下限に合致する密接な収束率を得ることでも知られている。
それにもかかわらず、これらの技術は適切に選択された「メガバッチサイズ」と連動してアンカーポイントを注意深く維持する必要がある。
これにより、実用性を弱める超パラメータチューニング問題が発生する。
近年, [Cutkosky and Orabona, 2019] は, アンカーポイントや大規模なバッチサイズの使用を避けるために再帰運動量を利用することができ, この設定に最適なレートが得られることを示した。
しかし、ストームと呼ばれるそれらの手法は、滑らかさの知識と勾配ノルムの束縛に大きく依存している。
本研究では,パラメータフリーで大規模なバッチサイズを必要としない新しい手法STORM+を提案し,近似定常点を求めるために最適なO(1/T^{1/3})$レートを求める。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムに基づいている。
関連論文リスト
- Accelerated Parameter-Free Stochastic Optimization [28.705054104155973]
本研究では,滑らかな凸最適化のための近似速度を求める手法を提案する。
問題パラメータに関する事前の知識は要らない。
本実験は, 凸問題に対する一貫した強い性能と, ニューラルネットワークトレーニングにおける混合結果を示す。
論文 参考訳(メタデータ) (2024-03-31T12:21:57Z) - Extra-Newton: A First Approach to Noise-Adaptive Accelerated
Second-Order Methods [57.050204432302195]
本研究では,2次スムーズな凸関数を最小化するための普遍的かつ適応的な2次法を提案する。
我々のアルゴリズムは、オラクルフィードバックが分散$sigma2$であるときに$O(sigma / sqrtT)$収束を達成し、決定論的オラクルで$O(1 / T3)$に収束を改善する。
論文 参考訳(メタデータ) (2022-11-03T14:12:51Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z) - A Momentum-Assisted Single-Timescale Stochastic Approximation Algorithm
for Bilevel Optimization [112.59170319105971]
問題に対処するための新しいアルゴリズム - Momentum- Single-timescale Approximation (MSTSA) を提案する。
MSTSAでは、低いレベルのサブプロブレムに対する不正確な解決策のため、反復でエラーを制御することができます。
論文 参考訳(メタデータ) (2021-02-15T07:10:33Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。