論文の概要: Parameter Symmetry and Noise Equilibrium of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.07193v3
- Date: Thu, 07 Nov 2024 02:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:48:59.317096
- Title: Parameter Symmetry and Noise Equilibrium of Stochastic Gradient Descent
- Title(参考訳): 確率勾配Descenceのパラメータ対称性とノイズ平衡
- Authors: Liu Ziyin, Mingze Wang, Hongchao Li, Lei Wu,
- Abstract要約: 勾配ノイズは、退化方向に沿ってパラメータ$theta$の体系的な相互作用を、一意に依存しない固定点$theta*$へと生成することを示す。
これらの点をノイズ平衡(it noise equilibria)と呼ぶのは、これらの点において、異なる方向からのノイズ寄与がバランスと整合性を持つためである。
勾配雑音のバランスとアライメントは、ニューラルネットワーク内でのプログレッシブ・シャープニング/フラット化や表現形成といった重要な現象を説明するための新しいメカニズムとして機能することを示す。
- 参考スコア(独自算出の注目度): 8.347295051171525
- License:
- Abstract: Symmetries are prevalent in deep learning and can significantly influence the learning dynamics of neural networks. In this paper, we examine how exponential symmetries -- a broad subclass of continuous symmetries present in the model architecture or loss function -- interplay with stochastic gradient descent (SGD). We first prove that gradient noise creates a systematic motion (a ``Noether flow") of the parameters $\theta$ along the degenerate direction to a unique initialization-independent fixed point $\theta^*$. These points are referred to as the {\it noise equilibria} because, at these points, noise contributions from different directions are balanced and aligned. Then, we show that the balance and alignment of gradient noise can serve as a novel alternative mechanism for explaining important phenomena such as progressive sharpening/flattening and representation formation within neural networks and have practical implications for understanding techniques like representation normalization and warmup.
- Abstract(参考訳): 対称性はディープラーニングで一般的であり、ニューラルネットワークの学習力学に大きな影響を及ぼす可能性がある。
本稿では,モデルアーキテクチャや損失関数に現れる連続対称性の幅広いサブクラスである指数対称性が,確率勾配降下(SGD)とどのように相互作用するかを検討する。
まず、勾配ノイズは、退化方向に沿ってパラメータ $\theta$ の体系的な運動( ``Noether flow)を、ユニークな初期化独立な固定点 $\theta^*$ へと生成することを示す。
これらの点を {\it noise equilibria と呼ぶのは、これらの点において、異なる方向からのノイズ寄与がバランスと整合性を持つためである。
そこで, 勾配雑音のバランスとアライメントは, ニューラルネットワーク内でのプログレッシブ・シャープニング・フラット化や表現形成などの重要な現象を説明するための新しいメカニズムとして機能し, 表現正規化やウォームアップといった技術を理解するための実践的意味を持つことを示す。
関連論文リスト
- The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文 参考訳(メタデータ) (2024-05-30T16:32:31Z) - Coarse-Graining Hamiltonian Systems Using WSINDy [0.0]
そこで,WSINDy は大規模内在系の存在下でハミルトン系を小さくすることに成功した。
WSINDy は、ハミルトンベクトル場の試行基底に制限を加えることにより、ハミルトン構造を自然に保存する。
また、ベクトル場のレベルでの1次平均化は、ほぼ周期的なハミルトン系におけるハミルトン構造を保存することを証明して平均化理論に寄与する。
論文 参考訳(メタデータ) (2023-10-09T17:20:04Z) - Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。
ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Noether: The More Things Change, the More Stay the Same [1.14219428942199]
ネーターの有名な定理は対称性が保存された量につながると主張する。
勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。
対称性は、勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。
論文 参考訳(メタデータ) (2021-04-12T14:41:05Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。
SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文 参考訳(メタデータ) (2020-12-08T20:33:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。