論文の概要: How Can Increased Randomness in Stochastic Gradient Descent Improve
Generalization?
- arxiv url: http://arxiv.org/abs/2108.09507v1
- Date: Sat, 21 Aug 2021 13:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:02:12.041079
- Title: How Can Increased Randomness in Stochastic Gradient Descent Improve
Generalization?
- Title(参考訳): 確率勾配の輝きのランダム性向上は一般化を改善するか?
- Authors: Arwen V. Bradley and Carlos Alberto Gomez-Uribe
- Abstract要約: 一般化におけるSGD学習率とバッチサイズの役割について検討する。
SGD温度の上昇は局所的微小腫の曲率低下を助長することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works report that increasing the learning rate or decreasing the
minibatch size in stochastic gradient descent (SGD) can improve test set
performance. We argue this is expected under some conditions in models with a
loss function with multiple local minima. Our main contribution is an
approximate but analytical approach inspired by methods in Physics to study the
role of the SGD learning rate and batch size in generalization. We characterize
test set performance under a shift between the training and test data
distributions for loss functions with multiple minima. The shift can simply be
due to sampling, and is therefore typically present in practical applications.
We show that the resulting shift in local minima worsens test performance by
picking up curvature, implying that generalization improves by selecting wide
and/or little-shifted local minima. We then specialize to SGD, and study its
test performance under stationarity. Because obtaining the exact stationary
distribution of SGD is intractable, we derive a Fokker-Planck approximation of
SGD and obtain its stationary distribution instead. This process shows that the
learning rate divided by the minibatch size plays a role analogous to
temperature in statistical mechanics, and implies that SGD, including its
stationary distribution, is largely invariant to changes in learning rate or
batch size that leave its temperature constant. We show that increasing SGD
temperature encourages the selection of local minima with lower curvature, and
can enable better generalization. We provide experiments on CIFAR10
demonstrating the temperature invariance of SGD, improvement of the test loss
as SGD temperature increases, and quantifying the impact of sampling versus
domain shift in driving this effect. Finally, we present synthetic experiments
showing how our theory applies in a simplified loss with two local minima.
- Abstract(参考訳): 近年の研究では、確率勾配降下(SGD)における学習率の増加やミニバッチサイズの減少がテストセット性能を向上させることが報告されている。
複数の局所ミニマを持つ損失関数を持つモデルでは、いくつかの条件下でこれを期待できる。
我々の主な貢献は、一般化におけるSGD学習率とバッチサイズの役割を研究する物理の手法に着想を得た、近似的だが解析的なアプローチである。
複数の最小値を持つ損失関数のトレーニングとテストデータ分布のシフトの下でテストセットのパフォーマンスを特徴付ける。
このシフトは単にサンプリングによって起こりうるため、一般的には実践的な応用に現れる。
その結果,局所的ミニマムの変化は曲率を上げることによってテスト性能を悪化させ,広義の局所的ミニマムの選択により一般化が向上することを示す。
次に,SGDを専門とし,静止条件下でのテスト性能について検討する。
SGDの正確な定常分布を得ることは困難であるため、SGDのFokker-Planck近似を導出し、その定常分布を得る。
このプロセスは, 最小バッチサイズで分割された学習速度が, 統計力学において温度に類似する役割を担っていることを示唆し, 定常分布を含むSGDは, 温度を一定に保った学習速度やバッチサイズの変化に大きく変化しないことを示唆している。
また,SGD温度の上昇は局所最小値の選択を低曲率で促進し,より一般化できることを示す。
我々は,SGDの温度不変性を示すCIFAR10の実験を行い,SGD温度が上昇するにつれて試験損失が向上し,この効果を駆動する際のサンプリングとドメインシフトの影響を定量化する。
最後に,2つの局所最小値による簡易な損失に我々の理論がどのように適用されるかを示す合成実験を示す。
関連論文リスト
- Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [6.144680854063938]
本研究では,その収束特性を明らかにするために,ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示した。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。