論文の概要: Surrogate Gap Minimization Improves Sharpness-Aware Training
- arxiv url: http://arxiv.org/abs/2203.08065v1
- Date: Tue, 15 Mar 2022 16:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:48:06.342615
- Title: Surrogate Gap Minimization Improves Sharpness-Aware Training
- Title(参考訳): サロゲートギャップ最小化はシャープネスアウェアトレーニングを改善する
- Authors: Juntang Zhuang, Boqing Gong, Liangzhe Yuan, Yin Cui, Hartwig Adam,
Nicha Dvornek, Sekhar Tatikonda, James Duncan, Ting Liu
- Abstract要約: Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
- 参考スコア(独自算出の注目度): 52.58252223573646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed Sharpness-Aware Minimization (SAM) improves
generalization by minimizing a \textit{perturbed loss} defined as the maximum
loss within a neighborhood in the parameter space. However, we show that both
sharp and flat minima can have a low perturbed loss, implying that SAM does not
always prefer flat minima. Instead, we define a \textit{surrogate gap}, a
measure equivalent to the dominant eigenvalue of Hessian at a local minimum
when the radius of the neighborhood (to derive the perturbed loss) is small.
The surrogate gap is easy to compute and feasible for direct minimization
during training. Based on the above observations, we propose Surrogate
\textbf{G}ap Guided \textbf{S}harpness-\textbf{A}ware \textbf{M}inimization
(GSAM), a novel improvement over SAM with negligible computation overhead.
Conceptually, GSAM consists of two steps: 1) a gradient descent like SAM to
minimize the perturbed loss, and 2) an \textit{ascent} step in the
\textit{orthogonal} direction (after gradient decomposition) to minimize the
surrogate gap and yet not affect the perturbed loss. GSAM seeks a region with
both small loss (by step 1) and low sharpness (by step 2), giving rise to a
model with high generalization capabilities. Theoretically, we show the
convergence of GSAM and provably better generalization than SAM. Empirically,
GSAM consistently improves generalization (e.g., +3.2\% over SAM and +5.4\%
over AdamW on ImageNet top-1 accuracy for ViT-B/32). Code is released at \url{
https://sites.google.com/view/gsam-iclr22/home}.
- Abstract(参考訳): 最近提案された Sharpness-Aware Minimization (SAM) は、パラメータ空間内の近傍における最大損失として定義される \textit{perturbed loss} を最小化することにより、一般化を改善する。
しかし, 鋭く平らなミニマはいずれも摂動損失が低く, SAMが必ずしも平らなミニマを好まないことが示唆された。
代わりに、近傍の半径(摂動損失を導出するために)が小さいとき、局所的な最小値においてヘッシアンの支配的固有値と同値な測度である \textit{surrogate gap} を定義する。
サーロゲートギャップは計算が容易で、トレーニング中の直接最小化が実現可能である。
上記の観察に基づいて,sam の計算オーバーヘッドが無視できる新しい改良であるsurrogate \textbf{g}ap guided \textbf{s}harpness-\textbf{a}ware \textbf{m}inimization (gsam)を提案する。
概念的には、GSAMは2つのステップから構成される。
1)乱れた損失を最小限に抑えるSAMのような勾配降下
2) \textit{ascent} ステップは (勾配分解後の) \textit{orthogonal} 方向に進み、サーロゲートギャップを最小化し、摂動損失に影響を与えない。
GSAMが(ステップ別に)損失の少ない地域を狙う
1 と低シャープさ (ステップ2 によって) は、高い一般化能力を持つモデルを生み出します。
理論的には、GSAMの収束とSAMよりも確実に優れた一般化を示す。
経験的に、GSAMは一貫して一般化を改善している(例えば、ImageNet Top-1の精度でSAMよりも+3.2\%、SAMより+5.4\%)。
コードは \url{ https://sites.google.com/view/gsam-iclr22/home} でリリースされる。
関連論文リスト
- Momentum-SAM: Sharpness Aware Minimization without Computational
Overhead [0.6577148087211809]
本稿では,蓄積された運動量ベクトルの方向にパラメータを摂動させ,計算オーバーヘッドやメモリ要求を伴わずに低シャープ性を実現するMomentum-SAMを提案する。
我々は、MSAMを詳細に評価し、NAG、SAM、MSAMの分離可能なメカニズムの学習最適化と一般化に関する知見を明らかにする。
論文 参考訳(メタデータ) (2024-01-22T15:19:18Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-13T10:44:10Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Fisher SAM: Information Geometry and Sharpness Aware Minimisation [81.72160507751028]
最近のシャープネス認識最小化(SAM)は平坦なミニマを見つけることが知られている。
SAMは、現在のイテレート周辺の小さな地区内での最大損失値を報告することにより、損失関数を基本的に変更する。
近傍を定義する際に, モデルパラメータ空間の情報幾何学, すなわち, SAMのユークリッド球をフィッシャー情報によって誘導される楕円形に置き換える。
論文 参考訳(メタデータ) (2022-06-10T07:42:51Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。