論文の概要: Towards understanding how momentum improves generalization in deep
learning
- arxiv url: http://arxiv.org/abs/2207.05931v1
- Date: Wed, 13 Jul 2022 02:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 03:21:43.131073
- Title: Towards understanding how momentum improves generalization in deep
learning
- Title(参考訳): 深層学習における運動量による一般化の理解に向けて
- Authors: Samy Jelassi, Yuanzhi Li
- Abstract要約: 学習課題のいくつかにおいて,運動量による勾配降下(GD+M)は,勾配降下(GD)に比べて一般化が著しく向上することを示した。
分析の主要な洞察は、サンプルがいくつかの特徴を共有しながらマージンが異なるデータセットでは、モーメントが有益であるということだ。
- 参考スコア(独自算出の注目度): 44.441873298005326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) with momentum is widely used for training
modern deep learning architectures. While it is well-understood that using
momentum can lead to faster convergence rate in various settings, it has also
been observed that momentum yields higher generalization. Prior work argue that
momentum stabilizes the SGD noise during training and this leads to higher
generalization. In this paper, we adopt another perspective and first
empirically show that gradient descent with momentum (GD+M) significantly
improves generalization compared to gradient descent (GD) in some deep learning
problems. From this observation, we formally study how momentum improves
generalization. We devise a binary classification setting where a one-hidden
layer (over-parameterized) convolutional neural network trained with GD+M
provably generalizes better than the same network trained with GD, when both
algorithms are similarly initialized. The key insight in our analysis is that
momentum is beneficial in datasets where the examples share some feature but
differ in their margin. Contrary to GD that memorizes the small margin data,
GD+M still learns the feature in these data thanks to its historical gradients.
Lastly, we empirically validate our theoretical findings.
- Abstract(参考訳): モーメントを伴う確率勾配降下(SGD)は、現代のディープラーニングアーキテクチャの訓練に広く用いられている。
運動量の使用は様々な設定においてより高速な収束率をもたらすとよく理解されているが、運動量がより高い一般化をもたらすことも観察されている。
以前の研究は、運動量は訓練中にSGDノイズを安定化させ、これがより高い一般化をもたらすと主張している。
本稿では,別の視点を取り入れ,第一に,運動量を持つ勾配降下 (gd+m) が,深層学習問題における勾配降下 (gd) よりも一般化を著しく改善することを示す。
この観察から、モーメントが一般化をどのように改善するかを正式に研究する。
我々は,gd+mで学習した1階層の畳み込みニューラルネットワークが,gdで訓練された同じネットワークよりも一般化し,両者のアルゴリズムが同様に初期化されている場合の2値分類設定を考案する。
私たちの分析における重要な洞察は、サンプルがいくつかの特徴を共有しながらマージンが異なるデータセットでは、モーメントが有益であるということです。
小さいマージンデータを記憶しているgdとは対照的に、gd+mはその歴史的な勾配のおかげで、これらのデータの特徴を学んでいる。
最後に,理論的知見を実証的に検証した。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。
我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文 参考訳(メタデータ) (2023-10-11T06:53:05Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - On the Generalization Mystery in Deep Learning [15.2292571922932]
2つの質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じる。
我々は、コヒーレンスに対する計算が容易で解釈可能な計量を用いて、この議論を定式化する。
この理論は、なぜいくつかの例が他の例よりも早く確実に学習されるのかなど、ディープラーニングの他の多くの現象についても説明している。
論文 参考訳(メタデータ) (2022-03-18T16:09:53Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。