論文の概要: On the Origin of Implicit Regularization in Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2101.12176v1
- Date: Thu, 28 Jan 2021 18:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:06:27.654645
- Title: On the Origin of Implicit Regularization in Stochastic Gradient Descent
- Title(参考訳): 確率勾配の老化における帰納規則化の起源について
- Authors: Samuel L. Smith, Benoit Dherin, David G. T. Barrett and Soham De
- Abstract要約: 勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。
ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。
損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
- 参考スコア(独自算出の注目度): 22.802683068658897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For infinitesimal learning rates, stochastic gradient descent (SGD) follows
the path of gradient flow on the full batch loss function. However moderately
large learning rates can achieve higher test accuracies, and this
generalization benefit is not explained by convergence bounds, since the
learning rate which maximizes test accuracy is often larger than the learning
rate which minimizes training loss. To interpret this phenomenon we prove that
for SGD with random shuffling, the mean SGD iterate also stays close to the
path of gradient flow if the learning rate is small and finite, but on a
modified loss. This modified loss is composed of the original loss function and
an implicit regularizer, which penalizes the norms of the minibatch gradients.
Under mild assumptions, when the batch size is small the scale of the implicit
regularization term is proportional to the ratio of the learning rate to the
batch size. We verify empirically that explicitly including the implicit
regularizer in the loss can enhance the test accuracy when the learning rate is
small.
- Abstract(参考訳): 無限小学習率について、確率的勾配降下 (sgd) は全バッチ損失関数上の勾配流の経路に従う。
しかし,テスト精度を最大化する学習率はしばしば学習損失を最小限にする学習率よりも大きいため,この一般化の利点は収束限界では説明できない。
この現象を解釈するために、ランダムなシャフリングを持つSGDの場合、学習率が小さくて有限である場合、平均SGD反復も勾配流の経路の近くに留まることを証明します。
この修正された損失は、元の損失関数と、ミニバッチ勾配のノルムをペナルティ化する暗黙の正規化からなる。
軽度の仮定では、バッチサイズが小さい場合には、暗黙の正規化項のスケールは、学習率とバッチサイズとの比率に比例する。
損失に暗黙の正則化器を明示的に含めることで、学習率が小さい場合にテスト精度を高めることを実証的に検証する。
関連論文リスト
- Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。