論文の概要: Disentangling the Mechanisms Behind Implicit Regularization in SGD
- arxiv url: http://arxiv.org/abs/2211.15853v1
- Date: Tue, 29 Nov 2022 01:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:58:33.166751
- Title: Disentangling the Mechanisms Behind Implicit Regularization in SGD
- Title(参考訳): SGDにおける不規則化のメカニズムの解明
- Authors: Zachary Novack, Simran Kaur, Tanya Marwah, Saurabh Garg, Zachary C.
Lipton
- Abstract要約: 本稿では,小規模から大規模バッチの一般化ギャップを埋めるための様々な理論機構の能力に焦点を当てる。
本研究では,マイクロバッチ上での勾配基準やフィッシャー情報マトリックスのトレースを明示的にペナル化することにより,SGDの小型化を再現できることを示す。
この一般化性能は、正規化モデルの勾配ノルムが小バッチSGDのノルムといかによく似ているかによく相関している。
- 参考スコア(独自算出の注目度): 21.893397581060636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of competing hypotheses have been proposed to explain why
small-batch Stochastic Gradient Descent (SGD)leads to improved generalization
over the full-batch regime, with recent work crediting the implicit
regularization of various quantities throughout training. However, to date,
empirical evidence assessing the explanatory power of these hypotheses is
lacking. In this paper, we conduct an extensive empirical evaluation, focusing
on the ability of various theorized mechanisms to close the small-to-large
batch generalization gap. Additionally, we characterize how the quantities that
SGD has been claimed to (implicitly) regularize change over the course of
training. By using micro-batches, i.e. disjoint smaller subsets of each
mini-batch, we empirically show that explicitly penalizing the gradient norm or
the Fisher Information Matrix trace, averaged over micro-batches, in the
large-batch regime recovers small-batch SGD generalization, whereas
Jacobian-based regularizations fail to do so. This generalization performance
is shown to often be correlated with how well the regularized model's gradient
norms resemble those of small-batch SGD. We additionally show that this
behavior breaks down as the micro-batch size approaches the batch size.
Finally, we note that in this line of inquiry, positive experimental findings
on CIFAR10 are often reversed on other datasets like CIFAR100, highlighting the
need to test hypotheses on a wider collection of datasets.
- Abstract(参考訳): 多くの競合する仮説が提案され、SGDがフルバッチ体制の一般化を後押しする理由を説明し、最近の研究はトレーニングを通して様々な量の暗黙の規則化を信用している。
しかし、今日までこれらの仮説の説明力を評価する実証的な証拠は乏しい。
本稿では,小規模から大規模までのバッチ一般化ギャップを埋める様々な理論的メカニズムの能力に着目し,広範な実証評価を行う。
さらに、sgdが(簡単に)トレーニングの過程で変化を規則化すると主張されている量を特徴付ける。
各ミニバッチの小さな部分集合を分離するマイクロバッチを使用することで、マイクロバッチ上で平均される勾配ノルムやフィッシャー情報行列トレースを、ジャコビアンベースの正規化がそうしないのに対して、大規模バッチでは小さなバッチsgd一般化を回復することを示す。
この一般化性能は、正規化モデルの勾配ノルムがいかにスモールバッチsgdによく似ているかに相関することがしばしば示されている。
さらに,マイクロバッチサイズがバッチサイズに近づくと,この挙動が崩壊することを示す。
最後に、この一連の調査において、CIFAR10の肯定的な実験結果は、CIFAR100のような他のデータセットでしばしば逆転され、より広いデータセットの集合で仮説をテストする必要性が強調される。
関連論文リスト
- Deep Anti-Regularized Ensembles provide reliable out-of-distribution
uncertainty quantification [4.750521042508541]
深層アンサンブルは、しばしばトレーニングドメインの外で過度に信頼された見積を返す。
トレーニングデータに適合する大きな重みを持つネットワークの集合は、これらの2つの目的を満たす可能性が高いことを示す。
提案手法の理論的枠組みを導出し,提案手法を「水充填問題」とみなすことができることを示す。
論文 参考訳(メタデータ) (2023-04-08T15:25:12Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Implicit Gradient Alignment in Distributed and Federated Learning [39.61762498388211]
分散学習とフェデレーション学習においてグローバル収束を達成するための大きな障害は、クライアント間の勾配の誤調整である。
更新毎に任意の大きなバッチを使用できるようにして,同じ暗黙の正規化を誘導する新しいGradAlignアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-25T22:01:35Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Generalized Sliced Distances for Probability Distributions [47.543990188697734]
我々は、一般化スライス確率測定(GSPM)と呼ばれる、幅広い確率測定値の族を紹介する。
GSPMは一般化されたラドン変換に根付いており、ユニークな幾何学的解釈を持つ。
GSPMに基づく勾配流を生成モデル応用に適用し、軽度な仮定の下では、勾配流が大域的最適に収束することを示す。
論文 参考訳(メタデータ) (2020-02-28T04:18:00Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。