Fugu-MT 論文翻訳(概要): SGD with large step sizes learns sparse features

論文の概要: SGD with large step sizes learns sparse features

arxiv url: http://arxiv.org/abs/2210.05337v1
Date: Tue, 11 Oct 2022 11:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:38:00.281511
Title: SGD with large step sizes learns sparse features
Title（参考訳）: ステップサイズが大きいSGDはスパース特徴を学習する
Authors: Maksym Andriushchenko, Aditya Varre, Loucas Pillaud-Vivien, Nicolas Flammarion
Abstract要約: 本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
参考スコア（独自算出の注目度）: 22.959258640051342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We showcase important features of the dynamics of the Stochastic Gradient Descent (SGD) in the training of neural networks. We present empirical observations that commonly used large step sizes (i) lead the iterates to jump from one side of a valley to the other causing loss stabilization, and (ii) this stabilization induces a hidden stochastic dynamics orthogonal to the bouncing directions that biases it implicitly toward simple predictors. Furthermore, we show empirically that the longer large step sizes keep SGD high in the loss landscape valleys, the better the implicit regularization can operate and find sparse representations. Notably, no explicit regularization is used so that the regularization effect comes solely from the SGD training dynamics influenced by the step size schedule. Therefore, these observations unveil how, through the step size schedules, both gradient and noise drive together the SGD dynamics through the loss landscape of neural networks. We justify these findings theoretically through the study of simple neural network models as well as qualitative arguments inspired from stochastic processes. Finally, this analysis allows to shed a new light on some common practice and observed phenomena when training neural networks. The code of our experiments is available at https://github.com/tml-epfl/sgd-sparse-features.
Abstract（参考訳）: ニューラルネットワークのトレーニングにおいて,SGD(Stochastic Gradient Descent)のダイナミクスの重要な特徴を紹介する。大きなステップサイズで広く使われる経験的な観察をお見せします (i)イテレートを谷の一方から他方へジャンプさせ、損失安定を引き起こす (II)この安定化は、単純な予測子に対して暗黙的に偏見するバウンディング方向と直交する隠れ確率力学を誘導する。さらに,より長いステップサイズでSGDを高く保ちつつも,暗黙の正規化がうまく機能し,疎らな表現を見出すことができることを示す。特に、ステップサイズスケジュールに影響されたSGDトレーニングダイナミクスからのみ正規化効果が得られるように、明示的な正規化は使用されない。したがって、これらの観測により、ステップサイズのスケジュールを通じて、勾配とノイズの両方がニューラルネットワークのロスランドスケープを通してSGDダイナミクスを一緒に駆動する方法が明らかにされる。我々は、単純なニューラルネットワークモデルの研究と、確率過程に触発された質的議論を通じて、これらの発見を理論的に正当化する。最後に、この分析により、ニューラルネットワークをトレーニングする際の一般的な実践と現象の観察に新たな光を当てることができる。私たちの実験のコードはhttps://github.com/tml-epfl/sgd-sparse-featuresで利用可能です。

関連論文リスト

Stochastic Resetting Mitigates Latent Gradient Bias of SGD from Label Noise [2.048226951354646]
本稿では,チェックポイントからのリセットにより,ディープニューラルネットワーク(DNN)をノイズラベルでトレーニングする際の一般化性能が大幅に向上することを示す。ノイズの多いラベルが存在する場合、DNNはまずデータの一般的なパターンを学習するが、徐々に破損したデータを記憶し、過度に適合する。勾配降下(SGD)のダイナミクスを分解することにより,雑音ラベルによる遅延勾配バイアスの挙動を同定し,一般化を損なう。
論文参考訳（メタデータ） (2024-06-01T10:45:41Z)
Benign Oscillation of Stochastic Gradient Descent with Large Learning Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文参考訳（メタデータ） (2023-10-26T00:35:40Z)
Law of Balance and Stationary Distribution of Stochastic Gradient Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2022-10-25T14:45:15Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations, and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文参考訳（メタデータ） (2021-07-19T20:18:57Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。