論文の概要: SGD with large step sizes learns sparse features
- arxiv url: http://arxiv.org/abs/2210.05337v1
- Date: Tue, 11 Oct 2022 11:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:38:00.281511
- Title: SGD with large step sizes learns sparse features
- Title(参考訳): ステップサイズが大きいSGDはスパース特徴を学習する
- Authors: Maksym Andriushchenko, Aditya Varre, Loucas Pillaud-Vivien, Nicolas
Flammarion
- Abstract要約: 本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
- 参考スコア(独自算出の注目度): 22.959258640051342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We showcase important features of the dynamics of the Stochastic Gradient
Descent (SGD) in the training of neural networks. We present empirical
observations that commonly used large step sizes (i) lead the iterates to jump
from one side of a valley to the other causing loss stabilization, and (ii)
this stabilization induces a hidden stochastic dynamics orthogonal to the
bouncing directions that biases it implicitly toward simple predictors.
Furthermore, we show empirically that the longer large step sizes keep SGD high
in the loss landscape valleys, the better the implicit regularization can
operate and find sparse representations. Notably, no explicit regularization is
used so that the regularization effect comes solely from the SGD training
dynamics influenced by the step size schedule. Therefore, these observations
unveil how, through the step size schedules, both gradient and noise drive
together the SGD dynamics through the loss landscape of neural networks. We
justify these findings theoretically through the study of simple neural network
models as well as qualitative arguments inspired from stochastic processes.
Finally, this analysis allows to shed a new light on some common practice and
observed phenomena when training neural networks. The code of our experiments
is available at https://github.com/tml-epfl/sgd-sparse-features.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおいて,SGD(Stochastic Gradient Descent)のダイナミクスの重要な特徴を紹介する。
大きなステップサイズで 広く使われる経験的な観察をお見せします
(i)イテレートを谷の一方から他方へジャンプさせ、損失安定を引き起こす
(II)この安定化は、単純な予測子に対して暗黙的に偏見するバウンディング方向と直交する隠れ確率力学を誘導する。
さらに,より長いステップサイズでSGDを高く保ちつつも,暗黙の正規化がうまく機能し,疎らな表現を見出すことができることを示す。
特に、ステップサイズスケジュールに影響されたSGDトレーニングダイナミクスからのみ正規化効果が得られるように、明示的な正規化は使用されない。
したがって、これらの観測により、ステップサイズのスケジュールを通じて、勾配とノイズの両方がニューラルネットワークのロスランドスケープを通してSGDダイナミクスを一緒に駆動する方法が明らかにされる。
我々は、単純なニューラルネットワークモデルの研究と、確率過程に触発された質的議論を通じて、これらの発見を理論的に正当化する。
最後に、この分析により、ニューラルネットワークをトレーニングする際の一般的な実践と現象の観察に新たな光を当てることができる。
私たちの実験のコードはhttps://github.com/tml-epfl/sgd-sparse-featuresで利用可能です。
関連論文リスト
- Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文 参考訳(メタデータ) (2023-10-26T00:35:40Z) - Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。