論文の概要: Stochastic gradient descent introduces an effective landscape-dependent
regularization favoring flat solutions
- arxiv url: http://arxiv.org/abs/2206.01246v1
- Date: Thu, 2 Jun 2022 18:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 15:26:55.957252
- Title: Stochastic gradient descent introduces an effective landscape-dependent
regularization favoring flat solutions
- Title(参考訳): 確率的勾配降下は平坦解を好む効率的な景観依存正規化をもたらす
- Authors: Ning Yang, Chao Tang, Yuhai Tu
- Abstract要約: 一般化はディープラーニング(DL)における最も重要な問題の1つである
トレーニングデータに等しく適合する低損失のソリューションは数多く存在する。
鍵となる問題は、どの解がより一般化可能であるかである。
- 参考スコア(独自算出の注目度): 5.022507593837554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization is one of the most important problems in deep learning (DL).
In the overparameterized regime in neural networks, there exist many low-loss
solutions that fit the training data equally well. The key question is which
solution is more generalizable. Empirical studies showed a strong correlation
between flatness of the loss landscape at a solution and its generalizability,
and stochastic gradient descent (SGD) is crucial in finding the flat solutions.
To understand how SGD drives the learning system to flat solutions, we
construct a simple model whose loss landscape has a continuous set of
degenerate (or near degenerate) minima. By solving the Fokker-Planck equation
of the underlying stochastic learning dynamics, we show that due to its strong
anisotropy the SGD noise introduces an additional effective loss term that
decreases with flatness and has an overall strength that increases with the
learning rate and batch-to-batch variation. We find that the additional
landscape-dependent SGD-loss breaks the degeneracy and serves as an effective
regularization for finding flat solutions. Furthermore, a stronger SGD noise
shortens the convergence time to the flat solutions. However, we identify an
upper bound for the SGD noise beyond which the system fails to converge. Our
results not only elucidate the role of SGD for generalization they may also
have important implications for hyperparameter selection for learning
efficiently without divergence.
- Abstract(参考訳): 一般化は、ディープラーニング(DL)における最も重要な問題の1つである。
ニューラルネットワークの過パラメータ構造では、トレーニングデータに等しく適合する低損失ソリューションが数多く存在する。
鍵となる問題は、どのソリューションがより一般化できるかだ。
実験により, 溶液における損失景観の平坦性と一般化性との間には強い相関関係がみられ, 確率勾配降下(SGD)は平坦な溶液の発見に不可欠であることがわかった。
SGDが学習システムをフラットな解へと駆動する方法を理解するため、損失ランドスケープが連続的に縮退する(あるいは縮退に近い)ミニマを持つ単純なモデルを構築した。
基礎となる確率学習力学のFokker-Planck方程式を解くことで、SGDノイズは強い異方性のため、平坦性によって減少し、学習速度とバッチ・ツー・バッチのばらつきによって増加する全体的な強度を有する追加の効果的な損失項を導入することを示した。
ランドスケープ依存型sgd-lossの追加は退化を損なっており、平坦な解を見つけるための効果的な正規化として機能する。
さらに、より強いSGDノイズは、平坦解への収束時間を短縮する。
しかし,sgdノイズの上限を同定し,sgdノイズの収束に失敗していることを示す。
この結果は,SGDの一般化に果たす役割を解明するだけでなく,多変量なく効率的に学習するためのハイパーパラメータ選択に重要な意味を持つ可能性がある。
関連論文リスト
- Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文 参考訳(メタデータ) (2024-10-14T14:11:37Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。
本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文 参考訳(メタデータ) (2023-05-10T15:00:05Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - AlterSGD: Finding Flat Minima for Continual Learning by Alternative
Training [11.521519687645428]
本稿では,損失景観における平らな最小値を求めるために,AlterSGDと呼ばれるシンプルで効果的な最適化手法を提案する。
このような戦略は、最適化が平坦なミニマに収束することを促進できることを示す。
セマンティックセグメンテーションのための連続学習ベンチマーク上でAlterSGDを検証し、実験結果から、忘れを著しく軽減できることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:43:51Z) - The Sobolev Regularization Effect of Stochastic Gradient Descent [8.193914488276468]
平坦なミニマはモデル関数の勾配を正則化するので、平坦なミニマの優れた性能が説明できる。
また、勾配雑音の高次モーメントについても検討し、グローバル・ミニマ周辺でのSGDの線形解析により、グラディエント・ダセント(SGD)がこれらのモーメントに制約を課す傾向があることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:49:21Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。