論文の概要: A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance
- arxiv url: http://arxiv.org/abs/2002.05273v4
- Date: Wed, 9 Jun 2021 18:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:29:14.582459
- Title: A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance
- Title(参考訳): 指数関数的およびコサイン的ステップサイズ - 単純さ、適応性、パフォーマンス
- Authors: Xiaoyu Li, Zhenxun Zhuang, Francesco Orabona
- Abstract要約: Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
- 参考スコア(独自算出の注目度): 23.89815527019194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) is a popular tool in training large-scale
machine learning models. Its performance, however, is highly variable,
depending crucially on the choice of the step sizes. Accordingly, a variety of
strategies for tuning the step sizes have been proposed, ranging from
coordinate-wise approaches (a.k.a. ``adaptive'' step sizes) to sophisticated
heuristics to change the step size in each iteration. In this paper, we study
two step size schedules whose power has been repeatedly confirmed in practice:
the exponential and the cosine step sizes. For the first time, we provide
theoretical support for them proving convergence rates for smooth non-convex
functions, with and without the Polyak-\L{}ojasiewicz (PL) condition. Moreover,
we show the surprising property that these two strategies are \emph{adaptive}
to the noise level in the stochastic gradients of PL functions. That is,
contrary to polynomial step sizes, they achieve almost optimal performance
without needing to know the noise level nor tuning their hyperparameters based
on it. Finally, we conduct a fair and comprehensive empirical evaluation of
real-world datasets with deep learning architectures. Results show that, even
if only requiring at most two hyperparameters to tune, these two strategies
best or match the performance of various finely-tuned state-of-the-art
strategies.
- Abstract(参考訳): Stochastic Gradient Descent(SGD)は、大規模な機械学習モデルをトレーニングする一般的なツールである。
しかし、その性能は非常に可変であり、ステップサイズの選択に大きく依存する。
したがって、ステップサイズをチューニングするための様々な戦略が提案され、各イテレーションのステップサイズを変更するための洗練されたヒューリスティックスまで、座標的なアプローチ(例えば `<adaptive' ステップサイズ)が提案されている。
本稿では,実際に電力が繰り返し確認された2つのステップサイズスケジュールについて,指数関数とコサインステップサイズについて検討する。
初めて、滑らかな非凸函数に対する収束率を証明し、Polyak-\L{}ojasiewicz (PL) 条件を満たさない理論的な支持を提供する。
さらに,これら2つの戦略がPL関数の確率勾配における雑音レベルに適応しているという驚くべき性質を示す。
つまり、多項式ステップサイズとは対照的に、ノイズレベルを知り、それに基づいてハイパーパラメータを調整することなく、ほぼ最適な性能を達成する。
最後に,ディープラーニングアーキテクチャを用いた実世界のデータセットの公平かつ包括的な評価を行う。
その結果,少なくとも2つのハイパーパラメータを調整するだけでよいとしても,これら2つの戦略が最適か,あるいは様々な微調整された最先端戦略のパフォーマンスに適合することがわかった。
関連論文リスト
- Learning Algorithm Hyperparameters for Fast Parametric Convex Optimization [2.0403774954994858]
本稿では,一階法のハイパーパラメータ列を学習するための機械学習フレームワークを提案する。
いくつかのアルゴリズムのハイパーパラメータの学習方法を示す。
本稿では,制御,信号処理,機械学習など,多くの例を用いて本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-11-24T04:58:36Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic Two Points Method for Deep Model Zeroth-order Optimization [32.459322001738144]
本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
我々は、VS2Pが深層モデルの目的を最適化するのに非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-02-02T18:39:40Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search) [32.24244211281863]
データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。
一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。
これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
論文 参考訳(メタデータ) (2020-06-11T21:23:30Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence [30.393999722555154]
本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
論文 参考訳(メタデータ) (2020-02-24T20:57:23Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。