論文の概要: Understanding Long Range Memory Effects in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2105.02062v1
- Date: Wed, 5 May 2021 13:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:55:42.665556
- Title: Understanding Long Range Memory Effects in Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークにおける長距離メモリ効果の理解
- Authors: Chengli Tan, Jiangshe Zhang, and Junmin Liu
- Abstract要約: 深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
- 参考スコア(独自算出の注目度): 10.616643031188248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{Stochastic gradient descent} (SGD) is of fundamental importance in
deep learning. Despite its simplicity, elucidating its efficacy remains
challenging. Conventionally, the success of SGD is attributed to the
\textit{stochastic gradient noise} (SGN) incurred in the training process.
Based on this general consensus, SGD is frequently treated and analyzed as the
Euler-Maruyama discretization of a \textit{stochastic differential equation}
(SDE) driven by either Brownian or L\'evy stable motion. In this study, we
argue that SGN is neither Gaussian nor stable. Instead, inspired by the
long-time correlation emerging in SGN series, we propose that SGD can be viewed
as a discretization of an SDE driven by \textit{fractional Brownian motion}
(FBM). Accordingly, the different convergence behavior of SGD dynamics is well
grounded. Moreover, the first passage time of an SDE driven by FBM is
approximately derived. This indicates a lower escaping rate for a larger Hurst
parameter, and thus SGD stays longer in flat minima. This happens to coincide
with the well-known phenomenon that SGD favors flat minima that generalize
well. Four groups of experiments are conducted to validate our conjecture, and
it is demonstrated that long-range memory effects persist across various model
architectures, datasets, and training strategies. Our study opens up a new
perspective and may contribute to a better understanding of SGD.
- Abstract(参考訳): \textit{Stochastic gradient descent} (SGD) は、ディープラーニングにおいて基本的な重要性である。
その単純さにもかかわらず、その効果を解明することは依然として困難である。
従来, SGD の成功は, トレーニングプロセスで発生する textit{stochastic gradient noise} (SGN) に起因する。
この一般的なコンセンサスに基づいて、SGD はブラウンあるいはL\'evy の安定運動によって駆動される \textit{stochastic differential equation} (SDE) のオイラー・丸山離散化として頻繁に扱われ、解析される。
本研究では,SGNがガウス的でも安定的でもないことを論じる。
代わりに、SGN級数に現れる長期相関に着想を得て、SGD を \textit{fractional Brownian motion} (FBM) によって駆動される SDE の離散化と見なすことができる。
したがって、sgdダイナミクスの異なる収束挙動が十分に決定される。
さらに、FBMにより駆動されるSDEの第1通過時間はほぼ導出される。
これはより大きなハーストパラメータの脱出率が低いことを示し、したがってsgdは平坦なミニマムでより長く保たれる。
これは、SGDがよく一般化する平坦なミニマを好むよく知られた現象と一致する。
4つの実験グループを用いて予測を検証し,様々なモデルアーキテクチャ,データセット,トレーニング戦略において長期記憶効果が持続することが実証された。
我々の研究は新たな視点を開き、SGDのより深い理解に寄与するかもしれない。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Revisiting the Noise Model of Stochastic Gradient Descent [5.482532589225552]
勾配雑音 (SGN) は勾配降下の成功に重要な要因である。
SGNはヘビーテールであり、$Salpha S$ディストリビューションによりよりよく表現されていることを示す。
論文 参考訳(メタデータ) (2023-03-05T18:55:12Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - Noisy Truncated SGD: Optimization and Generalization [27.33458360279836]
近年のsgdに関する実証研究により、エポックのほとんどの勾配成分は極めて小さいことが示されている。
このような研究に触発され、雑音SGD(NT-SGD)の特性を厳格に研究する。
我々は,NT-SGDがサドルポイントから確実に脱出でき,従来と比べノイズの少ないことを証明した。
論文 参考訳(メタデータ) (2021-02-26T22:39:41Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。