論文の概要: On the different regimes of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2309.10688v4
- Date: Tue, 27 Feb 2024 21:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:40:24.928944
- Title: On the different regimes of Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下の異なる性質について
- Authors: Antonio Sclocchi and Matthieu Wyart
- Abstract要約: 教師/学生の知覚論分類モデルの鍵となる予測が深層ネットワークにも適用可能であることを示す。
3つの動的位相を分離するB$-$eta$平面の位相図を得る。
これらの異なる位相もまた異なる誤差の規則に対応する。
- 参考スコア(独自算出の注目度): 6.792732176245062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep networks are trained with stochastic gradient descent (SGD) whose
key hyperparameters are the number of data considered at each step or batch
size $B$, and the step size or learning rate $\eta$. For small $B$ and large
$\eta$, SGD corresponds to a stochastic evolution of the parameters, whose
noise amplitude is governed by the ''temperature'' $T\equiv \eta/B$. Yet this
description is observed to break down for sufficiently large batches $B\geq
B^*$, or simplifies to gradient descent (GD) when the temperature is
sufficiently small. Understanding where these cross-overs take place remains a
central challenge. Here, we resolve these questions for a teacher-student
perceptron classification model and show empirically that our key predictions
still apply to deep networks. Specifically, we obtain a phase diagram in the
$B$-$\eta$ plane that separates three dynamical phases: (i) a noise-dominated
SGD governed by temperature, (ii) a large-first-step-dominated SGD and (iii)
GD. These different phases also correspond to different regimes of
generalization error. Remarkably, our analysis reveals that the batch size
$B^*$ separating regimes (i) and (ii) scale with the size $P$ of the training
set, with an exponent that characterizes the hardness of the classification
problem.
- Abstract(参考訳): 現代のディープネットワークは、各ステップまたはバッチサイズで考慮されるデータ数、ステップサイズまたは学習レートが$\eta$である確率勾配降下(SGD)を用いて訓練されている。
小さい$B$と大きな$\eta$の場合、SGDはパラメータの確率的進化に対応し、そのノイズ振幅は'温度'の$T\equiv \eta/B$で制御される。
しかし、この記述は、十分に大きなバッチに対して$B\geq B^*$で分解するか、温度が十分に小さい場合には勾配降下(GD)を単純化する。
これらのクロスオーバーの場所を理解することは、依然として中心的な課題である。
本稿では,教師が指導するパーセプトロン分類モデルに対して,これらの疑問を解き,その鍵となる予測が深層ネットワークにも応用できることを示す。
具体的には、3つの動的位相を分離する$b$-$\eta$ 平面の位相図を得る。
(i)温度が支配する騒音支配SGD。
(ii)大第1段支配SGD及び
(iii)gd。
これらの異なる位相はまた、一般化誤差の異なる状態に対応する。
興味深いことに、我々の分析はバッチサイズが$B^*$分離レギュレータであることを明らかにする。
(i)および
(ii) 分類問題の難しさを特徴付ける指数を用いて、トレーニングセットのサイズが$p$であるスケール。
関連論文リスト
- Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD [29.162265194920522]
本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。
オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。
しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-29T14:40:56Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning [3.0222726254970174]
勾配降下のノイズはディープニューラルネットワークの一般化に影響を及ぼす。
我々は,SGDノイズは訓練体制によって有害か,あるいは有用かを示す。
論文 参考訳(メタデータ) (2023-01-31T15:22:24Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Bypassing the Ambient Dimension: Private SGD with Gradient Subspace
Identification [47.23063195722975]
微分プライベートSGD(DP-SGD)は、微分プライベートな経験的リスク最小化(ERM)を解決する最も一般的な方法の1つである。
各勾配更新におけるノイズの多い摂動のため、DP-SGDの誤差率は、モデル内のパラメータ数である周囲次元$p$でスケールする。
雑音勾配を低次元部分空間に投影することでノイズ低減を行うDP-SGDを提案する。
論文 参考訳(メタデータ) (2020-07-07T22:31:01Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。