論文の概要: Exact Mean Square Linear Stability Analysis for SGD
- arxiv url: http://arxiv.org/abs/2306.07850v1
- Date: Tue, 13 Jun 2023 15:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:15:25.407344
- Title: Exact Mean Square Linear Stability Analysis for SGD
- Title(参考訳): SGDの厳密な正方形線形安定性解析
- Authors: Rotem Mulayoff, Tomer Michaeli
- Abstract要約: ステップサイズ$eta$は、勾配降下(SGD)の安定性に必要かつ十分な条件である。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1つのサンプル勾配ステップw.p.$p$のプロセスと等価であることを示す。
- 参考スコア(独自算出の注目度): 44.21198403467404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamical stability of optimization methods at the vicinity of minima of
the loss has recently attracted significant attention. For gradient descent
(GD), stable convergence is possible only to minima that are sufficiently flat
w.r.t. the step size, and those have been linked with favorable properties of
the trained model. However, while the stability threshold of GD is well-known,
to date, no explicit expression has been derived for the exact threshold of
stochastic GD (SGD). In this paper, we derive such a closed-form expression.
Specifically, we provide an explicit condition on the step size $\eta$ that is
both necessary and sufficient for the stability of SGD in the mean square
sense. Our analysis sheds light on the precise role of the batch size $B$.
Particularly, we show that the stability threshold is a monotonically
non-decreasing function of the batch size, which means that reducing the batch
size can only hurt stability. Furthermore, we show that SGD's stability
threshold is equivalent to that of a process which takes in each iteration a
full batch gradient step w.p. $1-p$, and a single sample gradient step w.p.
$p$, where $p \approx 1/B $. This indicates that even with moderate batch
sizes, SGD's stability threshold is very close to that of GD's. Finally, we
prove simple necessary conditions for stability, which depend on the batch
size, and are easier to compute than the precise threshold. We demonstrate our
theoretical findings through experiments on the MNIST dataset.
- Abstract(参考訳): 近年,損失最小付近における最適化法の動的安定性が注目されている。
勾配降下 (GD) に対して、安定収束はステップサイズが十分に平坦なミニマに対してのみ可能であり、これらは訓練されたモデルの好ましい性質と結びついている。
しかしながら、GDの安定性閾値はよく知られているが、確率的GD(SGD)の正確なしきい値に対して明確な表現が導出されていない。
本稿では,そのような閉形式表現を導出する。
具体的には、平均平方意味でのSGDの安定性に必要かつ十分であるステップサイズ$\eta$について明示的な条件を与える。
われわれの分析は、バッチサイズ$b$の正確な役割に光を当てている。
特に,安定閾値はバッチサイズの単調な非減少関数であり,バッチサイズの削減は安定性を損なう可能性があることを示す。
さらに、SGDの安定性閾値は、各イテレーションにおいて、完全なバッチ勾配ステップw.p.$-p$と、単一のサンプル勾配ステップw.p.$p$、$p \approx 1/B$と等価であることを示す。
これは、中程度のバッチサイズであっても、SGDの安定性閾値がGDと非常に近いことを示している。
最後に、バッチサイズに依存して、正確なしきい値よりも計算が容易な、安定性に必要な単純な条件を証明する。
MNISTデータセットを用いた実験により理論的結果を示す。
関連論文リスト
- A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - The Implicit Regularization of Dynamical Stability in Stochastic
Gradient Descent [32.25490196411385]
動的安定レンズによる勾配降下(SGD)の暗黙的正則化について検討する。
2層ReLUネットワークと対角線ネットワークの一般化特性を解析する。
論文 参考訳(メタデータ) (2023-05-27T14:54:21Z) - Numerically Stable Sparse Gaussian Processes via Minimum Separation
using Cover Trees [57.67528738886731]
誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:20:17Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。