論文の概要: Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates
- arxiv url: http://arxiv.org/abs/2310.17074v1
- Date: Thu, 26 Oct 2023 00:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:42:06.281701
- Title: Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates
- Title(参考訳): 学習率の大きい確率的勾配降下の良性振動
- Authors: Miao Lu, Beining Wu, Xiaodong Yang, Difan Zou
- Abstract要約: 勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
- 参考スコア(独自算出の注目度): 21.8377731053374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we theoretically investigate the generalization properties of
neural networks (NN) trained by stochastic gradient descent (SGD) algorithm
with large learning rates. Under such a training regime, our finding is that,
the oscillation of the NN weights caused by the large learning rate SGD
training turns out to be beneficial to the generalization of the NN, which
potentially improves over the same NN trained by SGD with small learning rates
that converges more smoothly. In view of this finding, we call such a
phenomenon "benign oscillation". Our theory towards demystifying such a
phenomenon builds upon the feature learning perspective of deep learning.
Specifically, we consider a feature-noise data generation model that consists
of (i) weak features which have a small $\ell_2$-norm and appear in each data
point; (ii) strong features which have a larger $\ell_2$-norm but only appear
in a certain fraction of all data points; and (iii) noise. We prove that NNs
trained by oscillating SGD with a large learning rate can effectively learn the
weak features in the presence of those strong features. In contrast, NNs
trained by SGD with a small learning rate can only learn the strong features
but makes little progress in learning the weak features. Consequently, when it
comes to the new testing data which consist of only weak features, the NN
trained by oscillating SGD with a large learning rate could still make correct
predictions consistently, while the NN trained by small learning rate SGD
fails. Our theory sheds light on how large learning rate training benefits the
generalization of NNs. Experimental results demonstrate our finding on "benign
oscillation".
- Abstract(参考訳): 本研究では,確率勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について理論的に検討する。
このような学習環境下では,学習率sgdの増大によるnn重みの振動がnnの一般化に有益であることが判明し,sgdが訓練したnn重みを,より円滑に収束する小さな学習率で改善できる可能性が示唆された。
この発見から、このような現象を「良振動」と呼ぶ。
このような現象をデミステマイズする我々の理論は、ディープラーニングの特徴学習の視点に基づいている。
具体的には,特徴雑音データ生成モデルについて考察する。
(i)小さな$\ell_2$-normを持ち、各データポイントに現れる弱い特徴
(ii)より大きい$\ell_2$-normを持つが、すべてのデータポイントの特定の部分にしか現れない強い特徴。
(iii)騒音。
我々は,SGDを大きな学習速度で振動させることで訓練したNNが,これらの強い特徴が存在する場合の弱い特徴を効果的に学習できることを証明した。
対照的に、SGDによって訓練されたNNは、強い特徴しか学べないが、弱い特徴を学ぶのにはほとんど進歩しない。
その結果、弱い特徴のみからなる新しいテストデータに関しては、SGDを大きな学習率で振動させてトレーニングしたNNは、小さな学習率でトレーニングしたNNが失敗する一方で、常に正しい予測を行うことができた。
我々の理論は、学習率トレーニングがnnの一般化にどのように役立つかに光を当てている。
実験結果から「良性振動」が示唆された。
関連論文リスト
- Label Deconvolution for Node Representation Learning on Large-scale
Attributed Graphs against Learning Bias [75.44877675117749]
本稿では,GNNの逆写像に対する新しい,スケーラブルな近似による学習バイアスを軽減するために,ラベルの効率的な正規化手法,すなわちラベルのデコンボリューション(LD)を提案する。
実験では、LDはOpen Graphデータセットのベンチマークで最先端のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2023-09-26T13:09:43Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima
Flatness, and Transfer Learning [7.262048441360132]
我々は、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズムのクラス(EA)が、正式にはグラディエント・Descent(SGD)と等価であることを示す。
次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。
論文 参考訳(メタデータ) (2023-05-20T22:26:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Linear Frequency Principle Model to Understand the Absence of
Overfitting in Neural Networks [4.86119220344659]
ターゲット関数の低周波支配が,NNの非オーバーフィッティングの鍵となる条件であることを示す。
理想の2層NNを用いて,定量的な予測力を持つLFPモデルが統計的にいかに詳細なNNトレーニングのダイナミックスをもたらすかを明らかにする。
論文 参考訳(メタデータ) (2021-01-30T10:11:37Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。