論文の概要: Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation
- arxiv url: http://arxiv.org/abs/2603.10048v1
- Date: Mon, 09 Mar 2026 02:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.591358
- Title: Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation
- Title(参考訳): シャープネスを意識した最小化の再考: より忠実で効果的な実装
- Authors: Jianlong Chen, Zhiming Zhou,
- Abstract要約: シャープネス・アウェアの最小化(SAM)は、パラメータ周辺の最大トレーニング損失を最小化することにより、一般化を促進する。
しかし、その実践的な実装は、勾配の上昇(s) と近似し、その後、現在のパラメータを更新するために上昇点の勾配を適用する。
その結果,一段上昇点における勾配は,局所勾配よりも局所勾配よりも現在のパラメータから局所近傍の最大方向への方向の近似が優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.4147146608927597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness-Aware Minimization (SAM) enhances generalization by minimizing the maximum training loss within a predefined neighborhood around the parameters. However, its practical implementation approximates this as gradient ascent(s) followed by applying the gradient at the ascent point to update the current parameters. This practice can be justified as approximately optimizing the objective by neglecting the (full) derivative of the ascent point with respect to the current parameters. Nevertheless, a direct and intuitive understanding of why using the gradient at the ascent point to update the current parameters works superiorly is still lacking. Our work bridges this gap by proposing a novel and intuitive interpretation. We show that the gradient at the single-step ascent point, \uline{when applied to the current parameters}, provides a better approximation of the direction from the current parameters toward the maximum within the local neighborhood than the local gradient. This improved approximation thereby enables a more direct escape from the maximum within the local neighborhood. Nevertheless, our analysis further reveals two issues. First, the approximation by the gradient at the single-step ascent point is often inaccurate. Second, the approximation quality may degrade as the number of ascent steps increases. To address these limitations, we propose in this paper eXplicit Sharpness-Aware Minimization (XSAM). It tackles the first by explicitly estimating the direction of the maximum during training, while addressing the second by crafting a search space that effectively leverages the gradient information at the multi-step ascent point. XSAM features a unified formulation that applies to both single-step and multi-step settings and only incurs negligible computational overhead. Extensive experiments demonstrate the consistent superiority of XSAM against existing counterparts.
- Abstract(参考訳): シャープネス・アウェアの最小化(SAM)は、パラメータの周辺で定義された領域内での最大トレーニング損失を最小化することにより、一般化を促進する。
しかし、その実践的な実装は、勾配上昇(s) と近似し、その後、現在のパラメータを更新するために上昇点の勾配を適用する。
このプラクティスは、現在のパラメータに対する上昇点の(完全な)微分を無視することによって、目的をほぼ最適化するものとして正当化することができる。
しかし、なぜ現在のパラメータを更新するのに勾配を使うのかという直感的で直感的な理解はいまだに欠けている。
私たちの仕事は、新しい直感的な解釈を提案して、このギャップを埋めます。
単段上昇点における勾配は、局所勾配よりも局所勾配よりも、現在のパラメータから局所近傍の最大方向への方向の近似が優れていることを示す。
この改良された近似により、局所的な地区内での最大値から、より直接的なエスケープが可能になる。
しかしながら、我々の分析はさらに2つの問題を明らかにしている。
第一に、一段階の上昇点における勾配による近似は、しばしば不正確なものである。
第二に、上昇段数が増加するにつれて近似品質が低下することがある。
これらの制約に対処するため,本稿ではeXplicit Sharpness-Aware Minimization (XSAM)を提案する。
トレーニング中に最大値の方向を明示的に推定し、マルチステップの上昇点における勾配情報を有効に活用する探索空間を構築することで、第1の課題に取り組む。
XSAMはシングルステップ設定とマルチステップ設定の両方に適用できる統一的な定式化を備えており、無視できる計算オーバーヘッドしか発生しない。
大規模な実験は、既存のものとのXSAMの相反する優位性を実証している。
関連論文リスト
- First-ish Order Methods: Hessian-aware Scalings of Gradient Descent [11.125968799758436]
勾配降下の鍵となる制限は、自然スケーリングの欠如である。
曲率を考慮することで、適応的なヘッセン対応スケーリング手法により、局所的な単位ステップサイズが保証される。
我々は,この手法が標準リプシッツ仮定のかなり弱いバージョンの下でグローバルに収束することを示す。
論文 参考訳(メタデータ) (2025-02-06T01:22:23Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines
and Drifting Towards Wide Minima [41.961056785108845]
我々は、ディープネットワークの勾配に基づく最適化手法であるシャープネス認識最小化について検討する。
SAM に凸2次対象を施すと、最も大きい曲率で最小方向の両辺の間で振動するサイクルに収束することを示す。
非二次的の場合、そのような振動は、ヘッセンのスペクトルノルムに基づいて、より小さなステップサイズで勾配降下を効果的に実行することを示す。
論文 参考訳(メタデータ) (2022-10-04T10:34:37Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。