Fugu-MT 論文翻訳(概要): The Implicit Bias of Gradient Noise: A Symmetry Perspective

論文の概要: The Implicit Bias of Gradient Noise: A Symmetry Perspective

arxiv url: http://arxiv.org/abs/2402.07193v1
Date: Sun, 11 Feb 2024 13:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:52:27.103341
Title: The Implicit Bias of Gradient Noise: A Symmetry Perspective
Title（参考訳）: 勾配騒音の暗黙のバイアス--対称性の観点から
Authors: Liu Ziyin, Mingze Wang, Lei Wu
Abstract要約: 損失関数に連続対称性が存在する場合、勾配降下(SGD)の学習力学を特徴付ける。対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。
参考スコア（独自算出の注目度）: 7.6730288475318815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We characterize the learning dynamics of stochastic gradient descent (SGD) when continuous symmetry exists in the loss function, where the divergence between SGD and gradient descent is dramatic. We show that depending on how the symmetry affects the learning dynamics, we can divide a family of symmetry into two classes. For one class of symmetry, SGD naturally converges to solutions that have a balanced and aligned gradient noise. For the other class of symmetry, SGD will almost always diverge. Then, we show that our result remains applicable and can help us understand the training dynamics even when the symmetry is not present in the loss function. Our main result is universal in the sense that it only depends on the existence of the symmetry and is independent of the details of the loss function. We demonstrate that the proposed theory offers an explanation of progressive sharpening and flattening and can be applied to common practical problems such as representation normalization, matrix factorization, and the use of warmup.
Abstract（参考訳）: 本研究では,連続対称性が損失関数に存在する場合の確率的勾配降下(sgd)の学習ダイナミクスを特徴付ける。対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。ある対称性のクラスに対して、SGD は自然に平衡で整列した勾配雑音を持つ解に収束する。他の対称性のクラスでは、SGDはほとんど常に分岐する。そして,損失関数に対称性が存在しない場合でも,結果が引き続き適用可能であり,トレーニングダイナミクスの理解に役立つことを示す。我々の主な結果は、対称性の存在のみに依存し、損失関数の詳細とは無関係であるという意味で普遍的である。提案理論は,漸進的なシャープ化とフラット化の説明を提供し,表現正規化,行列因子化,ウォームアップといった一般的な問題に適用できることを示す。

関連論文リスト

Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文参考訳（メタデータ） (2025-06-26T22:40:30Z)
The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文参考訳（メタデータ） (2024-05-30T16:32:31Z)
Coarse-Graining Hamiltonian Systems Using WSINDy [0.0]
そこで,WSINDy は大規模内在系の存在下でハミルトン系を小さくすることに成功した。 WSINDy は、ハミルトンベクトル場の試行基底に制限を加えることにより、ハミルトン構造を自然に保存する。また、ベクトル場のレベルでの1次平均化は、ほぼ周期的なハミルトン系におけるハミルトン構造を保存することを証明して平均化理論に寄与する。
論文参考訳（メタデータ） (2023-10-09T17:20:04Z)
Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文参考訳（メタデータ） (2023-09-29T02:21:31Z)
Law of Balance and Stationary Distribution of Stochastic Gradient Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Label noise (stochastic) gradient descent implicitly solves the Lasso for quadratic parametrisation [14.244787327283335]
本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
論文参考訳（メタデータ） (2022-06-20T15:24:42Z)
Noether: The More Things Change, the More Stay the Same [1.14219428942199]
ネーターの有名な定理は対称性が保存された量につながると主張する。勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。対称性は、勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。
論文参考訳（メタデータ） (2021-04-12T14:41:05Z)
Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文参考訳（メタデータ） (2021-02-13T21:28:09Z)
Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。 SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文参考訳（メタデータ） (2020-12-08T20:33:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。