論文の概要: (S)GD over Diagonal Linear Networks: Implicit Regularisation, Large
Stepsizes and Edge of Stability
- arxiv url: http://arxiv.org/abs/2302.08982v2
- Date: Wed, 25 Oct 2023 16:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 23:12:05.401814
- Title: (S)GD over Diagonal Linear Networks: Implicit Regularisation, Large
Stepsizes and Edge of Stability
- Title(参考訳): 対角線形ネットワーク上の(S)GD:暗黙の正規化、大きなステップサイズ、安定性のエッジ
- Authors: Mathieu Even, Scott Pesme, Suriya Gunasekar, Nicolas Flammarion
- Abstract要約: 直交線形ネットワーク上での降下(GD)と勾配降下(SGD)の暗黙的正則化に対する勾配性および大きな段差の影響について検討する。
GDのスパース解の回復を妨げつつも, スパース回帰問題に対して, SGD が常に有効であることを示す。
- 参考スコア(独自算出の注目度): 29.65065635952276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the impact of stochasticity and large stepsizes
on the implicit regularisation of gradient descent (GD) and stochastic gradient
descent (SGD) over diagonal linear networks. We prove the convergence of GD and
SGD with macroscopic stepsizes in an overparametrised regression setting and
characterise their solutions through an implicit regularisation problem. Our
crisp characterisation leads to qualitative insights about the impact of
stochasticity and stepsizes on the recovered solution. Specifically, we show
that large stepsizes consistently benefit SGD for sparse regression problems,
while they can hinder the recovery of sparse solutions for GD. These effects
are magnified for stepsizes in a tight window just below the divergence
threshold, in the "edge of stability" regime. Our findings are supported by
experimental results.
- Abstract(参考訳): 本稿では,直交線形ネットワーク上での勾配勾配(GD)と確率勾配勾配(SGD)の暗黙的な正則化に対する確率性および大きなステップサイズの影響について検討する。
我々は,gd と sgd とマクロステップの収束を過パラメータ回帰で証明し,その解を暗黙の正規化問題によって特徴づける。
我々のクリップな性格化は、確率性の影響に関する定性的な洞察と、回復した解に対する段差をもたらす。
具体的には, GD のスパース解の回復を妨げつつ, スパース回帰問題に対して, SGD が常に有利であることを示す。
これらの効果は「安定性の端」状態において、発散閾値の直ぐ下の狭い窓の段差のために拡大される。
我々の発見は実験結果によって裏付けられている。
関連論文リスト
- A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Stochastic gradient descent introduces an effective landscape-dependent
regularization favoring flat solutions [5.022507593837554]
一般化はディープラーニング(DL)における最も重要な問題の1つである
トレーニングデータに等しく適合する低損失のソリューションは数多く存在する。
鍵となる問題は、どの解がより一般化可能であるかである。
論文 参考訳(メタデータ) (2022-06-02T18:49:36Z) - Chaotic Regularization and Heavy-Tailed Limits for Deterministic
Gradient Descent [4.511923587827301]
勾配降下(GD)は、その力学がカオス的な振る舞いを示すときに一般化を改善することができる。
本研究では, カオス成分をGDに制御的に組み込み, マルチスケール摂動GD(MPGD)を導入する。
MPGDは、GD再帰を独立力学系を介して進化するカオス摂動で拡張する新しい最適化フレームワークである。
論文 参考訳(メタデータ) (2022-05-23T14:47:55Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。