Fugu-MT 論文翻訳(概要): Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent

論文の概要: Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2402.07193v2
Date: Mon, 3 Jun 2024 17:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 18:53:33.878945
Title: Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent
Title（参考訳）: 確率勾配Descenceの損失対称性とノイズ平衡
Authors: Liu Ziyin, Mingze Wang, Hongchao Li, Lei Wu,
Abstract要約: 連続対称性の幅広いサブクラスである指数対称性が損失関数に存在するとき、勾配降下(SGD)の学習力学を特徴付ける。損失関数の定数方向における特別な固定点は、SGDの解の候補として現れる。
参考スコア（独自算出の注目度）: 8.347295051171525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Symmetries exist abundantly in the loss function of neural networks. We characterize the learning dynamics of stochastic gradient descent (SGD) when exponential symmetries, a broad subclass of continuous symmetries, exist in the loss function. We establish that when gradient noises do not balance, SGD has the tendency to move the model parameters toward a point where noises from different directions are balanced. Here, a special type of fixed point in the constant directions of the loss function emerges as a candidate for solutions for SGD. As the main theoretical result, we prove that every parameter $\theta$ connects without loss function barrier to a unique noise-balanced fixed point $\theta^*$. The theory implies that the balancing of gradient noise can serve as a novel alternative mechanism for relevant phenomena such as progressive sharpening and flattening and can be applied to understand common practical problems such as representation normalization, matrix factorization, warmup, and formation of latent representations.
Abstract（参考訳）: ニューラルネットワークの損失関数には、対称性が豊富に存在する。連続対称性の幅広いサブクラスである指数対称性が損失関数の中に存在する場合、確率勾配降下(SGD)の学習力学を特徴付ける。勾配雑音がバランスが取れない場合、SGDはモデルパラメータを異なる方向からのノイズがバランスの取れた地点へ移動させる傾向にあることを示す。ここでは、損失関数の定数方向における特別な固定点が、SGDの解の候補として現れる。主理論的な結果として、各パラメータ $\theta$ が損失関数障壁なしで一意な雑音バランスの固定点 $\theta^*$ に接続することが証明される。この理論は、勾配ノイズのバランスが、プログレッシブ・シャープニングや平坦化のような関連する現象の新たな代替メカニズムとして機能し、表現正規化、行列分解、ウォームアップ、潜在表現の形成といった一般的な実践的問題を理解するために応用できることを示唆している。

関連論文リスト

Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文参考訳（メタデータ） (2025-06-26T22:40:30Z)
The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文参考訳（メタデータ） (2024-05-30T16:32:31Z)
Coarse-Graining Hamiltonian Systems Using WSINDy [0.0]
そこで,WSINDy は大規模内在系の存在下でハミルトン系を小さくすることに成功した。 WSINDy は、ハミルトンベクトル場の試行基底に制限を加えることにより、ハミルトン構造を自然に保存する。また、ベクトル場のレベルでの1次平均化は、ほぼ周期的なハミルトン系におけるハミルトン構造を保存することを証明して平均化理論に寄与する。
論文参考訳（メタデータ） (2023-10-09T17:20:04Z)
Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文参考訳（メタデータ） (2023-09-29T02:21:31Z)
Law of Balance and Stationary Distribution of Stochastic Gradient Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Label noise (stochastic) gradient descent implicitly solves the Lasso for quadratic parametrisation [14.244787327283335]
本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
論文参考訳（メタデータ） (2022-06-20T15:24:42Z)
Noether: The More Things Change, the More Stay the Same [1.14219428942199]
ネーターの有名な定理は対称性が保存された量につながると主張する。勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。対称性は、勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。
論文参考訳（メタデータ） (2021-04-12T14:41:05Z)
Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文参考訳（メタデータ） (2021-02-13T21:28:09Z)
Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。 SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文参考訳（メタデータ） (2020-12-08T20:33:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。