論文の概要: Resonance in Weight Space: Covariate Shift Can Drive Divergence of SGD
with Momentum
- arxiv url: http://arxiv.org/abs/2203.11992v1
- Date: Tue, 22 Mar 2022 18:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 04:59:40.160363
- Title: Resonance in Weight Space: Covariate Shift Can Drive Divergence of SGD
with Momentum
- Title(参考訳): 重み空間における共鳴:共変量シフトはモーメント付きSGDの分散を駆動できる
- Authors: Kirby Banman, Liam Peet-Pare, Nidhi Hegde, Alona Fyshe, Martha White
- Abstract要約: 既存の研究は、崩壊するステップサイズを持つSGDmがマルコフ時間相関の下で収束できることを示した。
本研究は, 一定段径の共変量シフト下でのSGDmが不安定かつ分散可能であることを示す。
通常の微分方程式の時間変化系として学習システムを近似し、既存の理論を活用し、系の発散/収束を共鳴/非共鳴モードとして特徴づける。
- 参考スコア(独自算出の注目度): 26.25434025410027
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most convergence guarantees for stochastic gradient descent with momentum
(SGDm) rely on iid sampling. Yet, SGDm is often used outside this regime, in
settings with temporally correlated input samples such as continual learning
and reinforcement learning. Existing work has shown that SGDm with a decaying
step-size can converge under Markovian temporal correlation. In this work, we
show that SGDm under covariate shift with a fixed step-size can be unstable and
diverge. In particular, we show SGDm under covariate shift is a parametric
oscillator, and so can suffer from a phenomenon known as resonance. We
approximate the learning system as a time varying system of ordinary
differential equations, and leverage existing theory to characterize the
system's divergence/convergence as resonant/nonresonant modes. The theoretical
result is limited to the linear setting with periodic covariate shift, so we
empirically supplement this result to show that resonance phenomena persist
even under non-periodic covariate shift, nonlinear dynamics with neural
networks, and optimizers other than SGDm.
- Abstract(参考訳): ほとんどの収束保証は、運動量を伴う確率勾配降下(SGDm)は、イドサンプリングに依存する。
しかし、SGDmは、連続学習や強化学習のような時間的に相関した入力サンプルの設定において、この体制の外でよく使われる。
既存の研究は、崩壊するステップサイズを持つSGDmがマルコフ時間相関の下で収束できることを示した。
本研究は, 一定段径の共変量シフト下でのSGDmが不安定かつ分散可能であることを示す。
特に,共変量シフト下でのsgdmはパラメトリック発振器であり,共鳴現象と呼ばれる現象に苦しむ可能性がある。
常微分方程式の時間変化系として学習系を近似し、既存の理論を用いてシステムの発散/収束を共振/非共振モードとして特徴付ける。
理論的結果は, 周期的共変量シフトを伴う線形設定に限られるため, 非周期的共変量シフト, ニューラルネットワークを用いた非線形ダイナミクス, およびSGDm以外のオプティマイザの下でも共鳴現象が持続することを示す。
関連論文リスト
- Probing Dynamical Sensitivity of a Non-KAM System Through
Out-of-Time-Order Correlators [0.0]
非KAM系は、不変位相空間トーラスの急激な破壊を通じて古典的カオスへの高速な経路を提供する。
我々は、量子極限における摂動非KAM系の動的感度を研究するために、時間外相関器(OTOC)を用いる。
以上の結果から, 短時間のダイナミクスは比較的安定であり, 不安定な固定点の文献で見られる指数関数的な成長を示すことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T07:31:16Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Time-Reversal Symmetric ODE Network [138.02741983098454]
時間反転対称性は古典力学や量子力学においてしばしば保持される基本的な性質である。
本稿では,通常の微分方程式(ODE)ネットワークがこの時間反転対称性にどの程度よく適合しているかを測定する新しい損失関数を提案する。
時間反転対称性を完全に持たないシステムであっても, TRS-ODEN はベースラインよりも優れた予測性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:19:40Z) - Signatures of quantum chaos transition in short spin chains [0.0]
時間外秩序相関器(OTOC)の長時間振動の研究は、少数の自由度を持つ系に適応できる汎用的なツールとして現れる。
OTOC振動の体系は、4つのスピンしか持たない鎖において、無限鎖からインテグレータ・ツー・カオス遷移が受け継がれていることをよく表している。
論文 参考訳(メタデータ) (2020-04-29T19:13:58Z) - Sparse and Smooth: improved guarantees for Spectral Clustering in the
Dynamic Stochastic Block Model [12.538755088321404]
動的ブロックモデル(DSBM)におけるスペクトルクラスタリング(SC)アルゴリズムの古典的変種を解析する。
既存の結果から、予測次数がノード数と対数的に増加する比較的スパースなケースでは、静的ケースの保証が動的ケースにまで拡張可能であることが分かる。
DSBMの疎度と滑らかさの新たなリンクを描画することで,これらの結果を改善する。
論文 参考訳(メタデータ) (2020-02-07T16:49:25Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。