論文の概要: A Unified Stability Analysis of SAM vs SGD: Role of Data Coherence and Emergence of Simplicity Bias
- arxiv url: http://arxiv.org/abs/2511.17378v1
- Date: Fri, 21 Nov 2025 16:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.115013
- Title: A Unified Stability Analysis of SAM vs SGD: Role of Data Coherence and Emergence of Simplicity Bias
- Title(参考訳): SAM対SGDの統一安定性解析:データコヒーレンスと単純性バイアスの発生の役割
- Authors: Wei-Kai Chang, Rajiv Khanna,
- Abstract要約: 勾配降下(SGD)とその変種は、よく一般化する解を確実に見つけるが、この一般化を導くメカニズムはいまだ不明である。
本研究では,SGD,ランダム摂動,SAMの挙動を,特に2層ReLUネットワーク上で解析する線形安定性フレームワークを開発する。
私たちの分析の中心は、データポイント間の勾配曲率の整合性を定量化するコヒーレンス尺度であり、トレーニング中に特定のミニマが安定して好まれる理由を明らかにしている。
- 参考スコア(独自算出の注目度): 7.446140380340418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the dynamics of optimization in deep learning is increasingly important as models scale. While stochastic gradient descent (SGD) and its variants reliably find solutions that generalize well, the mechanisms driving this generalization remain unclear. Notably, these algorithms often prefer flatter or simpler minima, particularly in overparameterized settings. Prior work has linked flatness to generalization, and methods like Sharpness-Aware Minimization (SAM) explicitly encourage flatness, but a unified theory connecting data structure, optimization dynamics, and the nature of learned solutions is still lacking. In this work, we develop a linear stability framework that analyzes the behavior of SGD, random perturbations, and SAM, particularly in two layer ReLU networks. Central to our analysis is a coherence measure that quantifies how gradient curvature aligns across data points, revealing why certain minima are stable and favored during training.
- Abstract(参考訳): ディープラーニングにおける最適化のダイナミクスを理解することは、モデルスケールとしてますます重要である。
確率勾配降下(SGD)とその変種は、よく一般化する解を確実に見つけるが、この一般化を導くメカニズムはいまだ不明である。
特に、これらのアルゴリズムは、特に過パラメータ設定において、より平坦またはより単純なミニマを好むことが多い。
従来の研究は平坦性と一般化を結び付けており、シャープネス・アウェア最小化(SAM)のような手法は明らかに平坦性を促進するが、データ構造、最適化力学、学習された解の性質を結合する統一理論はいまだに不足している。
本研究では,SGD,ランダム摂動,SAMの挙動を,特に2層ReLUネットワーク上で解析する線形安定性フレームワークを開発する。
私たちの分析の中心は、データポイント間の勾配曲率の整合性を定量化するコヒーレンス尺度であり、トレーニング中に特定のミニマが安定して好まれる理由を明らかにしている。
関連論文リスト
- A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Understanding Generalization of Federated Learning: the Trade-off between Model Stability and Optimization [34.520966684699665]
Federated Learning(FL)は、複数のデバイスで機械学習モデルをトレーニングする分散学習アプローチである。
本稿では,アルゴリズムの一般化性能向上のための革新的動的解析フレームワークである textitLibra を提案する。
より大きい局所的なステップや運動量によって勾配ノルムの収束が促進され、モデル安定性が悪化することを示す。
論文 参考訳(メタデータ) (2024-11-25T11:43:22Z) - Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - Minibatch and Local SGD: Algorithmic Stability and Linear Speedup in Generalization [44.846861387342926]
ミニバッチ勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
ミニバッチと局所SGDの安定性と一般化解析について検討した。
極小バッチと局所SGDが最適リスク境界を達成するために線形スピードアップを達成することを示す。
論文 参考訳(メタデータ) (2023-10-02T12:26:51Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - The Sobolev Regularization Effect of Stochastic Gradient Descent [8.193914488276468]
平坦なミニマはモデル関数の勾配を正則化するので、平坦なミニマの優れた性能が説明できる。
また、勾配雑音の高次モーメントについても検討し、グローバル・ミニマ周辺でのSGDの線形解析により、グラディエント・ダセント(SGD)がこれらのモーメントに制約を課す傾向があることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:49:21Z) - Stability and Generalization of Stochastic Gradient Methods for Minimax
Problems [71.60601421935844]
多くの機械学習問題は、GAN(Generative Adversarial Networks)のようなミニマックス問題として定式化できる。
ミニマックス問題に対するトレーニング勾配法から例を包括的に一般化解析する。
論文 参考訳(メタデータ) (2021-05-08T22:38:00Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。