論文の概要: The Implicit Bias of Gradient Noise: A Symmetry Perspective
- arxiv url: http://arxiv.org/abs/2402.07193v1
- Date: Sun, 11 Feb 2024 13:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:52:27.103341
- Title: The Implicit Bias of Gradient Noise: A Symmetry Perspective
- Title(参考訳): 勾配騒音の暗黙のバイアス--対称性の観点から
- Authors: Liu Ziyin, Mingze Wang, Lei Wu
- Abstract要約: 損失関数に連続対称性が存在する場合、勾配降下(SGD)の学習力学を特徴付ける。
対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。
- 参考スコア(独自算出の注目度): 7.6730288475318815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize the learning dynamics of stochastic gradient descent (SGD)
when continuous symmetry exists in the loss function, where the divergence
between SGD and gradient descent is dramatic. We show that depending on how the
symmetry affects the learning dynamics, we can divide a family of symmetry into
two classes. For one class of symmetry, SGD naturally converges to solutions
that have a balanced and aligned gradient noise. For the other class of
symmetry, SGD will almost always diverge. Then, we show that our result remains
applicable and can help us understand the training dynamics even when the
symmetry is not present in the loss function. Our main result is universal in
the sense that it only depends on the existence of the symmetry and is
independent of the details of the loss function. We demonstrate that the
proposed theory offers an explanation of progressive sharpening and flattening
and can be applied to common practical problems such as representation
normalization, matrix factorization, and the use of warmup.
- Abstract(参考訳): 本研究では,連続対称性が損失関数に存在する場合の確率的勾配降下(sgd)の学習ダイナミクスを特徴付ける。
対称性が学習力学にどのように影響するかによって、対称性の族を2つのクラスに分けることができることを示す。
ある対称性のクラスに対して、SGD は自然に平衡で整列した勾配雑音を持つ解に収束する。
他の対称性のクラスでは、SGDはほとんど常に分岐する。
そして,損失関数に対称性が存在しない場合でも,結果が引き続き適用可能であり,トレーニングダイナミクスの理解に役立つことを示す。
我々の主な結果は、対称性の存在のみに依存し、損失関数の詳細とは無関係であるという意味で普遍的である。
提案理論は,漸進的なシャープ化とフラット化の説明を提供し,表現正規化,行列因子化,ウォームアップといった一般的な問題に適用できることを示す。
関連論文リスト
- Exact, Average, and Broken Symmetries in a Simple Adaptive Monitored
Circuit [3.7536679189225373]
測定された量子回路は、本質的に平衡から外れた新しい物質の状態の基盤として登場した。
対称性は、これらの新しい状態、それらの相と相転移の組織原理として使用できるか?
我々は、異なる絡み合い遷移に加えて順序付け遷移をホストする単純な適応監視回路において、肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-12-28T18:56:23Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Symmetry Leads to Structured Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
再スケーリング対称性はスパース性、回転対称性は低いランク性、置換対称性は均質なアンサンブルをもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Implicit Bias of Gradient Descent on Reparametrized Models: On
Equivalence to Mirror Descent [64.26008239544085]
通勤パラメトリゼーションのある勾配流は、関連するレジェンド関数を持つ連続ミラー降下と等価である。
ルジャンドル関数を持つ連続ミラー降下は、関連する通勤パラメトリゼーションを伴う勾配流と見なすことができる。
論文 参考訳(メタデータ) (2022-07-08T17:47:11Z) - Geometric phase in a dissipative Jaynes-Cummings model: theoretical
explanation for resonance robustness [68.8204255655161]
我々は、ユニタリモデルと散逸型Jaynes-Cummingsモデルの両方で得られた幾何位相を計算する。
散逸モデルでは、非単体効果は、空洞壁を通る光子の流出から生じる。
幾何学的位相が堅牢であることを示し、非単体進化の下で消滅する補正を示す。
論文 参考訳(メタデータ) (2021-10-27T15:27:54Z) - Asymmetric Loss Functions for Learning with Noisy Labels [82.50250230688388]
そこで本研究では,様々なノイズに対する雑音ラベルによる学習に頑健な,新しい損失関数,すなわちテクスティタ対称損失関数を提案する。
ベンチマークデータセットの実験結果は、非対称損失関数が最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-06-06T12:52:48Z) - Noether's Learning Dynamics: The Role of Kinetic Symmetry Breaking in
Deep Learning [7.310043452300738]
性質上、対称性は規則性を支配し、対称性破壊はテクスチャをもたらす。
近年の実験では,損失関数の対称性が学習性能と密接に関連していることが示唆された。
学習則の対称性を損失関数に加えて考慮し,新しい設計原理として対称性の破れを提案する。
論文 参考訳(メタデータ) (2021-05-06T14:36:10Z) - Noether: The More Things Change, the More Stay the Same [1.14219428942199]
ネーターの有名な定理は対称性が保存された量につながると主張する。
勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。
対称性は、勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。
論文 参考訳(メタデータ) (2021-04-12T14:41:05Z) - Breaking Symmetries of the Reservoir Equations in Echo State Networks [0.0]
最も一般的なセットアップは有害な対称性を持ち、ミラー・トラクターと呼ばれるものを予測することに繋がる。
同様の問題が一般的な文脈で起こりうるので、いくつかの設計の成功や失敗を説明するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-09-21T16:00:22Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。