論文の概要: Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.07193v2
- Date: Mon, 3 Jun 2024 17:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.878945
- Title: Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent
- Title(参考訳): 確率勾配Descenceの損失対称性とノイズ平衡
- Authors: Liu Ziyin, Mingze Wang, Hongchao Li, Lei Wu,
- Abstract要約: 連続対称性の幅広いサブクラスである指数対称性が損失関数に存在するとき、勾配降下(SGD)の学習力学を特徴付ける。
損失関数の定数方向における特別な固定点は、SGDの解の候補として現れる。
- 参考スコア(独自算出の注目度): 8.347295051171525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symmetries exist abundantly in the loss function of neural networks. We characterize the learning dynamics of stochastic gradient descent (SGD) when exponential symmetries, a broad subclass of continuous symmetries, exist in the loss function. We establish that when gradient noises do not balance, SGD has the tendency to move the model parameters toward a point where noises from different directions are balanced. Here, a special type of fixed point in the constant directions of the loss function emerges as a candidate for solutions for SGD. As the main theoretical result, we prove that every parameter $\theta$ connects without loss function barrier to a unique noise-balanced fixed point $\theta^*$. The theory implies that the balancing of gradient noise can serve as a novel alternative mechanism for relevant phenomena such as progressive sharpening and flattening and can be applied to understand common practical problems such as representation normalization, matrix factorization, warmup, and formation of latent representations.
- Abstract(参考訳): ニューラルネットワークの損失関数には、対称性が豊富に存在する。
連続対称性の幅広いサブクラスである指数対称性が損失関数の中に存在する場合、確率勾配降下(SGD)の学習力学を特徴付ける。
勾配雑音がバランスが取れない場合、SGDはモデルパラメータを異なる方向からのノイズがバランスの取れた地点へ移動させる傾向にあることを示す。
ここでは、損失関数の定数方向における特別な固定点が、SGDの解の候補として現れる。
主理論的な結果として、各パラメータ $\theta$ が損失関数障壁なしで一意な雑音バランスの固定点 $\theta^*$ に接続することが証明される。
この理論は、勾配ノイズのバランスが、プログレッシブ・シャープニングや平坦化のような関連する現象の新たな代替メカニズムとして機能し、表現正規化、行列分解、ウォームアップ、潜在表現の形成といった一般的な実践的問題を理解するために応用できることを示唆している。
関連論文リスト
- A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent [9.064667124987068]
ミニバッチ勾配降下(ミニバッチ勾配降下)は、騒音が局所景観の幾何学と良好に一致する幾何学現象である。
ノイズが損失と部分空間射影力学にどのように影響するかを解析し,アライメント強度を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2023-10-01T14:58:20Z) - Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。
ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - On Uniform Boundedness Properties of SGD and its Momentum Variants [38.41217525394239]
勾配勾配勾配アルゴリズムの軌道に沿った反復率と関数値の均一な有界性について検討する。
広範に使われているステップデカイやコサインを含むステップサイズファミリーがステップサイズを再起動する(あるいは使用しない)ことは、一様有界な反復と関数値をもたらすことを示す。
論文 参考訳(メタデータ) (2022-01-25T11:34:56Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - Asymmetric Loss Functions for Learning with Noisy Labels [82.50250230688388]
そこで本研究では,様々なノイズに対する雑音ラベルによる学習に頑健な,新しい損失関数,すなわちテクスティタ対称損失関数を提案する。
ベンチマークデータセットの実験結果は、非対称損失関数が最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-06-06T12:52:48Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。