論文の概要: Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression
- arxiv url: http://arxiv.org/abs/2310.11428v1
- Date: Tue, 17 Oct 2023 17:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:52:02.374906
- Title: Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression
- Title(参考訳): SGDノイズの蝶効果:行動クローニングと自己回帰における誤差増幅
- Authors: Adam Block, Dylan J. Foster, Akshay Krishnamurthy, Max Simchowitz,
Cyril Zhang
- Abstract要約: 深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
- 参考スコア(独自算出の注目度): 70.78523583702209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies training instabilities of behavior cloning with deep neural
networks. We observe that minibatch SGD updates to the policy network during
training result in sharp oscillations in long-horizon rewards, despite
negligibly affecting the behavior cloning loss. We empirically disentangle the
statistical and computational causes of these oscillations, and find them to
stem from the chaotic propagation of minibatch SGD noise through unstable
closed-loop dynamics. While SGD noise is benign in the single-step action
prediction objective, it results in catastrophic error accumulation over long
horizons, an effect we term gradient variance amplification (GVA). We show that
many standard mitigation techniques do not alleviate GVA, but find an
exponential moving average (EMA) of iterates to be surprisingly effective at
doing so. We illustrate the generality of this phenomenon by showing the
existence of GVA and its amelioration by EMA in both continuous control and
autoregressive language generation. Finally, we provide theoretical vignettes
that highlight the benefits of EMA in alleviating GVA and shed light on the
extent to which classical convex models can help in understanding the benefits
of iterate averaging in deep learning.
- Abstract(参考訳): 本研究は,ディープニューラルネットワークを用いた行動クローニングの不安定性のトレーニングを行う。
トレーニング中のSGD更新の最小化は, 行動クローニング損失に悪影響を及ぼすが, 長期的報酬の急激な振動をもたらす。
我々はこれらの振動の統計的および計算的原因を実証的に解き、不安定な閉ループ力学によるミニバッチSGDノイズのカオス伝播から引き起こす。
SGDノイズは、単一ステップの動作予測目標において良性であるが、長い地平線上での破滅的エラーの蓄積は、勾配分散増幅(GVA)と呼ばれる効果である。
多くの標準緩和技術はGVAを緩和しないが、指数移動平均(EMA)が驚くほど効果的であることを示す。
連続制御と自己回帰言語生成の両方において、GVAの存在とEMAによる改善を示すことによって、この現象の一般性を示す。
最後に,egaの緩和におけるemaのメリットを強調する理論的ヴィグネットを提供し,古典凸モデルがディープラーニングにおける反復平均化のメリットを理解するのにどの程度役立つかを明らかにする。
関連論文リスト
- Per-Example Gradient Regularization Improves Learning Signals from Noisy
Data [25.646054298195434]
実験的な証拠は、勾配正則化技術は、ノイズの多い摂動に対するディープラーニングモデルの堅牢性を著しく向上させることができることを示唆している。
本稿では,騒音摂動に対する試験誤差とロバスト性の両方を改善することの有効性を理論的に示す。
解析の結果,PEGRはパターン学習の分散をペナルティ化し,学習データからの雑音の記憶を効果的に抑制することがわかった。
論文 参考訳(メタデータ) (2023-03-31T10:08:23Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。