論文の概要: The Implicit Bias of Gradient Noise: A Symmetry Perspective
- arxiv url: http://arxiv.org/abs/2402.07193v1
- Date: Sun, 11 Feb 2024 13:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:52:27.103341
- Title: The Implicit Bias of Gradient Noise: A Symmetry Perspective
- Title(参考訳): 勾配騒音の暗黙のバイアス--対称性の観点から
- Authors: Liu Ziyin, Mingze Wang, Lei Wu
- Abstract要約: 損失関数に連続対称性が存在する場合、勾配降下(SGD)の学習力学を特徴付ける。
対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。
- 参考スコア(独自算出の注目度): 7.6730288475318815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize the learning dynamics of stochastic gradient descent (SGD)
when continuous symmetry exists in the loss function, where the divergence
between SGD and gradient descent is dramatic. We show that depending on how the
symmetry affects the learning dynamics, we can divide a family of symmetry into
two classes. For one class of symmetry, SGD naturally converges to solutions
that have a balanced and aligned gradient noise. For the other class of
symmetry, SGD will almost always diverge. Then, we show that our result remains
applicable and can help us understand the training dynamics even when the
symmetry is not present in the loss function. Our main result is universal in
the sense that it only depends on the existence of the symmetry and is
independent of the details of the loss function. We demonstrate that the
proposed theory offers an explanation of progressive sharpening and flattening
and can be applied to common practical problems such as representation
normalization, matrix factorization, and the use of warmup.
- Abstract(参考訳): 本研究では,連続対称性が損失関数に存在する場合の確率的勾配降下(sgd)の学習ダイナミクスを特徴付ける。
対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。
ある対称性のクラスに対して、SGD は自然に平衡で整列した勾配雑音を持つ解に収束する。
他の対称性のクラスでは、SGDはほとんど常に分岐する。
そして,損失関数に対称性が存在しない場合でも,結果が引き続き適用可能であり,トレーニングダイナミクスの理解に役立つことを示す。
我々の主な結果は、対称性の存在のみに依存し、損失関数の詳細とは無関係であるという意味で普遍的である。
提案理論は,漸進的なシャープ化とフラット化の説明を提供し,表現正規化,行列因子化,ウォームアップといった一般的な問題に適用できることを示す。
関連論文リスト
- The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文 参考訳(メタデータ) (2024-05-30T16:32:31Z) - Coarse-Graining Hamiltonian Systems Using WSINDy [0.0]
そこで,WSINDy は大規模内在系の存在下でハミルトン系を小さくすることに成功した。
WSINDy は、ハミルトンベクトル場の試行基底に制限を加えることにより、ハミルトン構造を自然に保存する。
また、ベクトル場のレベルでの1次平均化は、ほぼ周期的なハミルトン系におけるハミルトン構造を保存することを証明して平均化理論に寄与する。
論文 参考訳(メタデータ) (2023-10-09T17:20:04Z) - Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。
ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Noether: The More Things Change, the More Stay the Same [1.14219428942199]
ネーターの有名な定理は対称性が保存された量につながると主張する。
勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。
対称性は、勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。
論文 参考訳(メタデータ) (2021-04-12T14:41:05Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。
SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文 参考訳(メタデータ) (2020-12-08T20:33:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。