論文の概要: On the Training Instability of Shuffling SGD with Batch Normalization
- arxiv url: http://arxiv.org/abs/2302.12444v1
- Date: Fri, 24 Feb 2023 04:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:43:06.335193
- Title: On the Training Instability of Shuffling SGD with Batch Normalization
- Title(参考訳): バッチ正規化によるシャッフルSGDのトレーニング不安定性について
- Authors: David X. Wu, Chulhee Yun, Suvrit Sra
- Abstract要約: 単一シャッフル(SS)とランダムリシャッフル(RR)は、バッチ正規化の存在下で驚くほど異なる相互作用をする。
SSは回帰と分類のばらつきを生じるが,RRは歪みとばらつきの両方を避けている。
- 参考スコア(独自算出の注目度): 55.91102045977015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We uncover how SGD interacts with batch normalization and can exhibit
undesirable training dynamics such as divergence. More precisely, we study how
Single Shuffle (SS) and Random Reshuffle (RR) -- two widely used variants of
SGD -- interact surprisingly differently in the presence of batch
normalization: RR leads to much more stable evolution of training loss than SS.
As a concrete example, for regression using a linear network with batch
normalization, we prove that SS and RR converge to distinct global optima that
are "distorted" away from gradient descent. Thereafter, for classification we
characterize conditions under which training divergence for SS and RR can, and
cannot occur. We present explicit constructions to show how SS leads to
distorted optima in regression and divergence for classification, whereas RR
avoids both distortion and divergence. We validate our results by confirming
them empirically in realistic settings, and conclude that the separation
between SS and RR used with batch normalization is relevant in practice.
- Abstract(参考訳): 我々は、SGDがバッチ正規化とどのように相互作用するかを明らかにし、分散のような望ましくないトレーニングのダイナミクスを示す。
より正確には、Single Shuffle(SS)とRandom Reshuffle(RR)という2つの広く使われているSGDの変種が、バッチ正規化の存在下で驚くほど異なる相互作用をおこなったかを研究する。
具体的な例として、バッチ正規化を伴う線形ネットワークを用いた回帰について、SSとRRは勾配降下から「歪んだ」異なる大域的最適度に収束することを示す。
その後の分類では,SSとRRの訓練分岐が発生し得ない条件を特徴付ける。
SSが回帰や分類のばらつきにおいて最適に歪むかを示すための明示的な構成を示す一方、RRは歪みとばらつきの両方を避ける。
現実的な設定で実証的に検証し,バッチ正規化で使用するSSとRRの分離が実際に関係していると結論付けた。
関連論文リスト
- Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Function-space regularized R\'enyi divergences [6.221019624345409]
変分関数空間によってパラメトリズされた正則化 R'enyi divergences の新しい族を提案する。
これらの新しい発散のいくつかの性質を証明し、古典的な R'enyi 発散と IPM 間を補間していることを示す。
提案した正規化 R'enyi は、絶対連続でない分布を比較する能力など、IMM から特徴を継承することを示した。
論文 参考訳(メタデータ) (2022-10-10T19:18:04Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Explicit Regularization via Regularizer Mirror Descent [32.0512015286512]
本稿では,正則化を用いたディープニューラルネットワーク(DNN)のトレーニング手法を提案する。
RMDはトレーニングデータを同時に補間し、重みの潜在的な機能を最小化する。
以上の結果から,RMDの性能は,勾配降下 (SGD) と重量減衰の両方よりも著しく良好であることが示唆された。
論文 参考訳(メタデータ) (2022-02-22T10:21:44Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Re-parameterizing VAEs for stability [1.90365714903665]
本稿では,変分オートエンコーダ(VAE)の数値安定性を訓練するための理論的アプローチを提案する。
我々の研究は、VAEが複雑な画像データセット上のアート生成結果に到達できるようにするための最近の研究によって動機づけられている。
我々は、それらが依存する正規分布のパラメータ化方法に小さな変更を加えることで、VAEを安全にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-06-25T16:19:09Z) - Generalization Error Rates in Kernel Regression: The Crossover from the
Noiseless to Noisy Regime [29.731516232010343]
我々はKRR(Kernel Ridge Regression)をガウスの設計に基づいて検討する。
サンプルの複雑さが増大するにつれて、ノイズのない指数とノイズのない値との雑音環境における遷移の存在を示す。
論文 参考訳(メタデータ) (2021-05-31T14:39:08Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。