論文の概要: Surrogate Gap Minimization Improves Sharpness-Aware Training
- arxiv url: http://arxiv.org/abs/2203.08065v1
- Date: Tue, 15 Mar 2022 16:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:48:06.342615
- Title: Surrogate Gap Minimization Improves Sharpness-Aware Training
- Title(参考訳): サロゲートギャップ最小化はシャープネスアウェアトレーニングを改善する
- Authors: Juntang Zhuang, Boqing Gong, Liangzhe Yuan, Yin Cui, Hartwig Adam,
Nicha Dvornek, Sekhar Tatikonda, James Duncan, Ting Liu
- Abstract要約: Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
- 参考スコア(独自算出の注目度): 52.58252223573646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed Sharpness-Aware Minimization (SAM) improves
generalization by minimizing a \textit{perturbed loss} defined as the maximum
loss within a neighborhood in the parameter space. However, we show that both
sharp and flat minima can have a low perturbed loss, implying that SAM does not
always prefer flat minima. Instead, we define a \textit{surrogate gap}, a
measure equivalent to the dominant eigenvalue of Hessian at a local minimum
when the radius of the neighborhood (to derive the perturbed loss) is small.
The surrogate gap is easy to compute and feasible for direct minimization
during training. Based on the above observations, we propose Surrogate
\textbf{G}ap Guided \textbf{S}harpness-\textbf{A}ware \textbf{M}inimization
(GSAM), a novel improvement over SAM with negligible computation overhead.
Conceptually, GSAM consists of two steps: 1) a gradient descent like SAM to
minimize the perturbed loss, and 2) an \textit{ascent} step in the
\textit{orthogonal} direction (after gradient decomposition) to minimize the
surrogate gap and yet not affect the perturbed loss. GSAM seeks a region with
both small loss (by step 1) and low sharpness (by step 2), giving rise to a
model with high generalization capabilities. Theoretically, we show the
convergence of GSAM and provably better generalization than SAM. Empirically,
GSAM consistently improves generalization (e.g., +3.2\% over SAM and +5.4\%
over AdamW on ImageNet top-1 accuracy for ViT-B/32). Code is released at \url{
https://sites.google.com/view/gsam-iclr22/home}.
- Abstract(参考訳): 最近提案された Sharpness-Aware Minimization (SAM) は、パラメータ空間内の近傍における最大損失として定義される \textit{perturbed loss} を最小化することにより、一般化を改善する。
しかし, 鋭く平らなミニマはいずれも摂動損失が低く, SAMが必ずしも平らなミニマを好まないことが示唆された。
代わりに、近傍の半径(摂動損失を導出するために)が小さいとき、局所的な最小値においてヘッシアンの支配的固有値と同値な測度である \textit{surrogate gap} を定義する。
サーロゲートギャップは計算が容易で、トレーニング中の直接最小化が実現可能である。
上記の観察に基づいて,sam の計算オーバーヘッドが無視できる新しい改良であるsurrogate \textbf{g}ap guided \textbf{s}harpness-\textbf{a}ware \textbf{m}inimization (gsam)を提案する。
概念的には、GSAMは2つのステップから構成される。
1)乱れた損失を最小限に抑えるSAMのような勾配降下
2) \textit{ascent} ステップは (勾配分解後の) \textit{orthogonal} 方向に進み、サーロゲートギャップを最小化し、摂動損失に影響を与えない。
GSAMが(ステップ別に)損失の少ない地域を狙う
1 と低シャープさ (ステップ2 によって) は、高い一般化能力を持つモデルを生み出します。
理論的には、GSAMの収束とSAMよりも確実に優れた一般化を示す。
経験的に、GSAMは一貫して一般化を改善している(例えば、ImageNet Top-1の精度でSAMよりも+3.2\%、SAMより+5.4\%)。
コードは \url{ https://sites.google.com/view/gsam-iclr22/home} でリリースされる。
関連論文リスト
- Bilateral Sharpness-Aware Minimization for Flatter Minima [61.17349662062522]
Sharpness-Aware Minimization (SAM) は Max-Sharpness (MaxS) を減らして一般化を促進する
本稿では,現在の重量を囲む周辺地域のトレーニング損失と最小損失の差を利用して,Min-Sharpness (MinS) と表現する。
MaxSとMinSをマージすることで、最適化中により平坦な方向を示すより良いFIを作成しました。特に、このFIをSAMと組み合わせて提案されたバイラテラルSAM(BSAM)に組み込むことにより、SAMよりもより平坦な最小値を求めることができます。
論文 参考訳(メタデータ) (2024-09-20T03:01:13Z) - Improving SAM Requires Rethinking its Optimization Formulation [57.601718870423454]
Sharpness-Aware Minimization (SAM) は、もともとネットワークの重みと有界摂動がそれぞれ同じ差分損失を最小/最大化しようとするゼロサムゲームとして定式化されている。
我々は SAM を 0-1 の損失を用いて再定式化すべきであると主張する。連続緩和として、最小化(最大化)プレイヤーが 0-1 の損失に対して上界(より下界)をサロゲートする単純なアプローチに従う。これは BiSAM と呼ばれる双レベル最適化問題として SAM の新たな定式化につながる。
論文 参考訳(メタデータ) (2024-07-17T20:22:33Z) - Efficient Sharpness-Aware Minimization for Molecular Graph Transformer Models [42.59948316941217]
シャープネスを意識した最小化(SAM)は、訓練軌道と一般化劣化からシャープな局所最小化を効果的に排除できるため、コンピュータビジョンにおいて注目を集めている。
本稿では、SAMのトレーニングコストを削減し、グラフトランスフォーマーモデルの一般化性能を向上させる、GraphSAMという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T01:03:23Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。