論文の概要: Chaotic Regularization and Heavy-Tailed Limits for Deterministic
Gradient Descent
- arxiv url: http://arxiv.org/abs/2205.11361v1
- Date: Mon, 23 May 2022 14:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 02:47:27.015292
- Title: Chaotic Regularization and Heavy-Tailed Limits for Deterministic
Gradient Descent
- Title(参考訳): 定性グラディエントDescenceに対するカオス正則化と重り付き限界
- Authors: Soon Hoe Lim, Yijun Wan, Umut \c{S}im\c{s}ekli
- Abstract要約: 勾配降下(GD)は、その力学がカオス的な振る舞いを示すときに一般化を改善することができる。
本研究では, カオス成分をGDに制御的に組み込み, マルチスケール摂動GD(MPGD)を導入する。
MPGDは、GD再帰を独立力学系を介して進化するカオス摂動で拡張する新しい最適化フレームワークである。
- 参考スコア(独自算出の注目度): 4.511923587827301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that gradient descent (GD) can achieve improved
generalization when its dynamics exhibits a chaotic behavior. However, to
obtain the desired effect, the step-size should be chosen sufficiently large, a
task which is problem dependent and can be difficult in practice. In this
study, we incorporate a chaotic component to GD in a controlled manner, and
introduce multiscale perturbed GD (MPGD), a novel optimization framework where
the GD recursion is augmented with chaotic perturbations that evolve via an
independent dynamical system. We analyze MPGD from three different angles: (i)
By building up on recent advances in rough paths theory, we show that, under
appropriate assumptions, as the step-size decreases, the MPGD recursion
converges weakly to a stochastic differential equation (SDE) driven by a
heavy-tailed L\'evy-stable process. (ii) By making connections to recently
developed generalization bounds for heavy-tailed processes, we derive a
generalization bound for the limiting SDE and relate the worst-case
generalization error over the trajectories of the process to the parameters of
MPGD. (iii) We analyze the implicit regularization effect brought by the
dynamical regularization and show that, in the weak perturbation regime, MPGD
introduces terms that penalize the Hessian of the loss function. Empirical
results are provided to demonstrate the advantages of MPGD.
- Abstract(参考訳): 近年の研究では、勾配降下(GD)がカオス的な振る舞いを示すと一般化を改善することが示されている。
しかし、望ましい効果を得るためには、ステップサイズを十分に大きくし、問題に依存し、実際に難しいタスクを選択する必要がある。
本研究では,GDにカオス成分を制御的に組み込むとともに,GD再帰を独立力学系を介して進化するカオス摂動で拡張する新しい最適化フレームワークであるマルチスケール摂動GD(MPGD)を導入する。
3つの角度からMPGDを分析する。
i) 粗経路理論の最近の進歩を積み重ねることで, ステップサイズが減少するにつれてMPGD再帰は, 重み付きL\'evy-stableプロセスによって駆動される確率微分方程式(SDE)に弱収束することを示す。
(ii)最近開発された重み付き過程の一般化境界と接続することで,制限sde に対する一般化を導出し,mpgd のパラメータに対するプロセスの軌道上の最悪の一般化誤差を関連付ける。
3) 動的正則化による暗黙的な正則化効果を解析し, 弱い摂動状態においては, MPGDは損失関数のヘシアンをペナルティ化する用語を導入している。
MPGDの利点を示す実証的な結果が提供される。
関連論文リスト
- Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - (S)GD over Diagonal Linear Networks: Implicit Regularisation, Large
Stepsizes and Edge of Stability [29.65065635952276]
直交線形ネットワーク上での降下(GD)と勾配降下(SGD)の暗黙的正則化に対する勾配性および大きな段差の影響について検討する。
GDのスパース解の回復を妨げつつも, スパース回帰問題に対して, SGD が常に有効であることを示す。
論文 参考訳(メタデータ) (2023-02-17T16:37:08Z) - OrthoReg: Improving Graph-regularized MLPs via Orthogonality
Regularization [66.30021126251725]
グラフニューラルネットワーク(GNN)は現在、グラフ構造データのモデリングにおいて支配的である。
グラフ正規化ネットワーク(GR-MLP)はグラフ構造情報をモデル重みに暗黙的に注入するが、その性能はほとんどのタスクにおいてGNNとほとんど一致しない。
GR-MLPは,最大数個の固有値が埋め込み空間を支配する現象である次元崩壊に苦しむことを示す。
次元崩壊問題を緩和する新しいGR-MLPモデルであるOrthoRegを提案する。
論文 参考訳(メタデータ) (2023-01-31T21:20:48Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。