論文の概要: Cyclic and Randomized Stepsizes Invoke Heavier Tails in SGD than
Constant Stepsize
- arxiv url: http://arxiv.org/abs/2302.05516v2
- Date: Tue, 29 Aug 2023 11:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:00:30.822289
- Title: Cyclic and Randomized Stepsizes Invoke Heavier Tails in SGD than
Constant Stepsize
- Title(参考訳): SGDにおけるStepsizeとStepsizeの周期的およびランダム化はStepsizeよりも大きい
- Authors: Mert G\"urb\"uzbalaban, Yuanhan Hu, Umut \c{S}im\c{s}ekli, Lingjiong
Zhu
- Abstract要約: 我々は、ランダムなステップ化、循環的なステップ化、定数なステップ化を特別なケースとして含む、学習のためのマルコフ的ステップ化の一般的なクラスを考える。
この結果から, 周期的およびランダムな段階化の利点に対する新たな理解が得られた。
線形回帰実験に関する我々の理論を解説し、マルコフのステップ化がさらに重いテールを達成できる深層学習実験を通して示す。
- 参考スコア(独自算出の注目度): 6.87619047954774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cyclic and randomized stepsizes are widely used in the deep learning practice
and can often outperform standard stepsize choices such as constant stepsize in
SGD. Despite their empirical success, not much is currently known about when
and why they can theoretically improve the generalization performance. We
consider a general class of Markovian stepsizes for learning, which contain
i.i.d. random stepsize, cyclic stepsize as well as the constant stepsize as
special cases, and motivated by the literature which shows that heaviness of
the tails (measured by the so-called "tail-index") in the SGD iterates is
correlated with generalization, we study tail-index and provide a number of
theoretical results that demonstrate how the tail-index varies on the stepsize
scheduling. Our results bring a new understanding of the benefits of cyclic and
randomized stepsizes compared to constant stepsize in terms of the tail
behavior. We illustrate our theory on linear regression experiments and show
through deep learning experiments that Markovian stepsizes can achieve even a
heavier tail and be a viable alternative to cyclic and i.i.d. randomized
stepsize rules.
- Abstract(参考訳): 周期的およびランダムなステップサイズは、ディープラーニングの実践において広く使われており、SGDにおける定数ステップサイズのような標準的なステップサイズ選択よりも優れていることが多い。
経験的な成功にもかかわらず、理論的に一般化性能が向上できる時期と理由については、現時点ではあまり知られていない。
我々は,学習のためのマルコフステップの一般クラスとして,ランダムステップ化,サイクリックステップ化,および一定のステップ化を特別な場合として考慮し,sgdイテレートにおけるテールの重み(いわゆる「テールインデックス」によって測定される)が一般化と相関していることを示す文献に動機づけられ,テールインデックスを研究し,テールインデックスがスケジューリングにどのように依存するかを実証する理論的結果を提供する。
この結果から, 周期的およびランダムな段階化の利点に対する新たな理解が得られた。
線形回帰実験に関する我々の理論を解説し、マルコフのステップ化がより重いテールを達成でき、循環的および非ランダムなステップ化規則の代替となることの深層学習実験を通して示す。
関連論文リスト
- A Heavy-Tailed Algebra for Probabilistic Programming [53.32246823168763]
本稿では,確率変数の尾を解析するための体系的アプローチを提案する。
本稿では,確率型プログラミング言語コンパイラの静的解析(サンプル作成前)において,この手法をどのように利用できるかを示す。
実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2023-06-15T16:37:36Z) - An Empirical Study of the Occurrence of Heavy-Tails in Training a ReLU
Gate [0.7614628596146599]
2つのアルゴリズムは、後者が収束することが証明できる任意のデータに類似したヘビーテールの挙動を持つと推測する。
このモデルシナリオにおける重み付き指数は、線形仮説クラスで証明されたものや、大規模ネットで実証されたものとは大きく異なる性質を持つことを示す。
論文 参考訳(メタデータ) (2022-04-26T19:28:51Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。