論文の概要: Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise
- arxiv url: http://arxiv.org/abs/2509.18001v2
- Date: Mon, 27 Oct 2025 14:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 22:08:13.792615
- Title: Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise
- Title(参考訳): 確率勾配雑音によるm-シャープの解離
- Authors: Haocheng Luo, Mehrtash Harandi, Dinh Phung, Trung Le,
- Abstract要約: 計算摂動のマイクロバッチサイズが減少するにつれて,SAMの性能が単調に向上する現象であるmsharpnessについて検討する。
実際には、経験的なm-シャープ効果はSAMの訓練における展開を支えているが、厳密な理論的な説明はいまだに欠けている。
本稿では, 並列化性を維持しつつ, m-SAMの一般化の利点を模倣するために, シャープネス重み付きサンプリングを用いたReweighted SAM(RWSAM)を紹介する。
- 参考スコア(独自算出の注目度): 31.637051623223346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness-aware minimization (SAM) has emerged as a highly effective technique for improving model generalization, but its underlying principles are not fully understood. We investigated the phenomenon known as m-sharpness, where the performance of SAM improves monotonically as the micro-batch size for computing perturbations decreases. In practice, the empirical m-sharpness effect underpins the deployment of SAM in distributed training, yet a rigorous theoretical account has remained lacking. To provide a theoretical explanation for m-sharpness, we leverage an extended Stochastic Differential Equation (SDE) framework and analyze the structure of stochastic gradient noise (SGN) to characterize the dynamics of various SAM variants, including n-SAM and m-SAM. Our findings reveal that the stochastic noise introduced during SAM perturbations inherently induces a variance-based sharpness regularization effect. Motivated by our theoretical insights, we introduce Reweighted SAM (RW-SAM), which employs sharpness-weighted sampling to mimic the generalization benefits of m-SAM while remaining parallelizable. Comprehensive experiments validate the effectiveness of our theoretical analysis and proposed method.
- Abstract(参考訳): シャープネスを意識した最小化(SAM)は、モデル一般化を改善するための非常に効果的な手法として登場したが、その根底にある原理は完全には理解されていない。
計算摂動のマイクロバッチサイズが小さくなるにつれて,SAMの性能が単調に向上する現象であるm-sharpnessについて検討した。
実際には、経験的なm-シャープ効果はSAMの分散トレーニングへの展開を支えているが、厳密な理論的な説明はいまだに欠けている。
m-シャープ性の理論的説明として、拡張確率微分方程式(SDE)フレームワークを活用し、確率勾配雑音(SGN)の構造を分析し、n-SAMやm-SAMなど様々なSAM変種を特徴付ける。
その結果,SAM摂動時に発生する確率的雑音は本質的に変動に基づくシャープネス正則化効果を誘導することが明らかとなった。
本稿では, 並列化性を維持しつつ, m-SAMの一般化の利点を模倣するために, シャープネス重み付きサンプリングを用いたReweighted SAM(RW-SAM)を紹介する。
総合的な実験により,理論解析の有効性と提案手法の有効性が検証された。
関連論文リスト
- LightSAM: Parameter-Agnostic Sharpness-Aware Minimization [92.17866492331524]
シャープネス・アウェアの最小化(SAM)は、重量摂動を通して平らなミニマランドスケープを探索することにより、機械学習モデルの能力を高める。
SAMはさらなるハイパーパラメータ、摂動半径を導入し、SAMの感度を誘導する。
本稿では,SAMの摂動半径と学習速度を適応的に設定するアルゴリズムLightSAMを提案する。
論文 参考訳(メタデータ) (2025-05-30T09:28:38Z) - Sharpness-Aware Minimization: General Analysis and Improved Rates [10.11126899274029]
Sharpness-Aware Minimization (SAM) は機械学習モデルの一般化を改善する強力な方法として登場した。
本稿では,SAMとその非正規化変動規則(USAM)を1回の更新で解析する。
我々は、より自然に緩和された仮定の下で、新しいサイズの結果を示す。
論文 参考訳(メタデータ) (2025-03-04T03:04:06Z) - Monge SAM: Robust Reparameterization-Invariant Sharpness-Aware Minimization Based on Loss Geometry [2.854482269849925]
シャープネスを意識した最小化(SAM)は、逆方向の摂動の勾配に応じてパラメータを更新することにより、平坦な領域を効率的に見つける。
我々はSAMの再パラメータ化不変バージョンであるMonge SAM (M-SAM)を提案する。
理論的にも経験的にも、マルチモーダルな表現アライメントタスクにおいて、この振る舞いを実証する。
論文 参考訳(メタデータ) (2025-02-12T14:40:19Z) - Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - Critical Influence of Overparameterization on Sharpness-aware Minimization [12.321517302762558]
シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークトレーニングにおける一般化を改善する効果において、かなりの注目を集めている。
この研究は、SAMの有効性に重要な影響を示す経験的および理論的知見の両方を提示する。
論文 参考訳(メタデータ) (2023-11-29T11:19:50Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Stability Analysis of Sharpness-Aware Minimization [5.024497308975435]
Sharpness-Aware(SAM)は、ディープラーニングにおいてフラットなミニマを見つけるための、最近提案されたトレーニング手法である。
本稿では,SAM力学がサドル点付近で発生する収束不安定性を有することを示す。
論文 参考訳(メタデータ) (2023-01-16T08:42:40Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。