論文の概要: Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks
- arxiv url: http://arxiv.org/abs/2306.04251v3
- Date: Wed, 29 May 2024 01:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 02:31:12.079966
- Title: Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks
- Title(参考訳): 確率的崩壊: より単純なサブネットに向けたSGDダイナミクスのグラディエントノイズの抽出方法
- Authors: Feng Chen, Daniel Kunin, Atsushi Yamamura, Surya Ganguli,
- Abstract要約: 我々は、過度に表現力のあるネットワークをもっと単純な作業へと駆動する、降下勾配(SGD)の強い暗黙バイアスを明らかにする。
より単純な(疎あるいは低ランクな)作業に対応する不変集合の2つのクラスに焦点を合わせ、現代建築に一般的に現れる。
我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスが、冗長なニューロンで単純な処理を消滅させることがしばしばあることを示唆している。
- 参考スコア(独自算出の注目度): 28.87871359825978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we reveal a strong implicit bias of stochastic gradient descent (SGD) that drives overly expressive networks to much simpler subnetworks, thereby dramatically reducing the number of independent parameters, and improving generalization. To reveal this bias, we identify invariant sets, or subsets of parameter space that remain unmodified by SGD. We focus on two classes of invariant sets that correspond to simpler (sparse or low-rank) subnetworks and commonly appear in modern architectures. Our analysis uncovers that SGD exhibits a property of stochastic attractivity towards these simpler invariant sets. We establish a sufficient condition for stochastic attractivity based on a competition between the loss landscape's curvature around the invariant set and the noise introduced by stochastic gradients. Remarkably, we find that an increased level of noise strengthens attractivity, leading to the emergence of attractive invariant sets associated with saddle-points or local maxima of the train loss. We observe empirically the existence of attractive invariant sets in trained deep neural networks, implying that SGD dynamics often collapses to simple subnetworks with either vanishing or redundant neurons. We further demonstrate how this simplifying process of stochastic collapse benefits generalization in a linear teacher-student framework. Finally, through this analysis, we mechanistically explain why early training with large learning rates for extended periods benefits subsequent generalization.
- Abstract(参考訳): 本研究では,より単純なサブネットワークに過度に表現的ネットワークを駆動する確率勾配降下(SGD)の強い暗黙バイアスを明らかにし,独立パラメータの数を劇的に削減し,一般化を改善する。
このバイアスを明らかにするために、SGD によって修正されないパラメータ空間の不変集合や部分集合を同定する。
我々は、より単純な(スパースまたはローランクの)サブネットワークに対応する不変集合の2つのクラスに焦点を合わせ、モダンアーキテクチャに一般的に現れる。
解析により、SGDはこれらの単純不変集合に対する確率的誘引性の性質を示すことが明らかとなった。
我々は,不変量集合の周囲のロスランドスケープの曲率と,確率勾配によってもたらされる雑音との競合に基づいて,確率的誘引性の十分な条件を確立する。
顕著なことに、ノイズのレベルが増大すると魅力が増し、サドルポイントや列車損失の局所的な最大値に関連する魅力的な不変集合が出現する。
我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスがしばしば消滅または冗長なニューロンを持つ単純なサブネットに崩壊することを示す。
さらに、この確率的崩壊の単純化プロセスが、線形教師学生フレームワークの一般化にどう役立つかを実証する。
最後に、この分析を通じて、長期にわたる学習率の高い早期学習が、その後の一般化に有効である理由を機械的に説明する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD [29.162265194920522]
本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。
オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。
しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-29T14:40:56Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics [1.5393457051344297]
本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
Splineベースの可視化を使用した学習ダイナミクスのビデオはhttp://shorturl.at/tFWZ2.comで公開されている。
論文 参考訳(メタデータ) (2020-08-04T19:19:49Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。