論文の概要: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization
- arxiv url: http://arxiv.org/abs/2303.03108v1
- Date: Fri, 3 Mar 2023 16:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:05:58.535137
- Title: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization
- Title(参考訳): グラディエントノルム認識の最小化は1次平坦性を追求し、一般化を改善する
- Authors: Xingxuan Zhang and Renzhe Xu and Han Yu and Hao Zou and Peng Cui
- Abstract要約: ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
- 参考スコア(独自算出の注目度): 33.50116027503244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, flat minima are proven to be effective for improving generalization
and sharpness-aware minimization (SAM) achieves state-of-the-art performance.
Yet the current definition of flatness discussed in SAM and its follow-ups are
limited to the zeroth-order flatness (i.e., the worst-case loss within a
perturbation radius). We show that the zeroth-order flatness can be
insufficient to discriminate minima with low generalization error from those
with high generalization error both when there is a single minimum or multiple
minima within the given perturbation radius. Thus we present first-order
flatness, a stronger measure of flatness focusing on the maximal gradient norm
within a perturbation radius which bounds both the maximal eigenvalue of
Hessian at local minima and the regularization function of SAM. We also present
a novel training procedure named Gradient norm Aware Minimization (GAM) to seek
minima with uniformly small curvature across all directions. Experimental
results show that GAM improves the generalization of models trained with
current optimizers such as SGD and AdamW on various datasets and networks.
Furthermore, we show that GAM can help SAM find flatter minima and achieve
better generalization.
- Abstract(参考訳): 近年、フラットミニマは一般化とシャープネス認識最小化(sam)の改善に効果的であることが証明されている。
しかし、SAMで議論されている平坦性の現在の定義とそのフォローアップはゼロ階平坦性(摂動半径内の最悪の損失)に限定されている。
摂動半径内に1つの最小または複数のミニマが存在する場合, 一般化誤差の低いミニマを高い一般化誤差で判別するには, ゼロ階平坦性が不十分であることを示す。
そこで我々は,局所的最小点におけるヘッシアンの最大固有値とsamの正規化関数の両方を境界とする摂動半径内の最大勾配ノルムに着目した,一階平坦性を示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
実験結果から,GAMは様々なデータセットやネットワーク上で,SGDやAdamWといった現在の最適化アルゴリズムで訓練されたモデルの一般化を改善することが示された。
さらに、GAMはSAMがより平坦なミニマムを見つけ、より良い一般化を実現するのに役立つことを示す。
関連論文リスト
- The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-13T10:44:10Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文 参考訳(メタデータ) (2022-03-15T16:57:59Z) - Neighborhood Region Smoothing Regularization for Finding Flat Minima In
Deep Neural Networks [16.4654807047138]
我々はNRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。
NRSは、近似出力を得るために、重量空間の近傍領域を規則化しようとする。
NRSによって発見されたミニマは、従来の方法に比べて比較的小さなヘッセン固有値を持つことを実証的に示す。
論文 参考訳(メタデータ) (2022-01-16T15:11:00Z) - On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。
私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文 参考訳(メタデータ) (2021-02-24T04:47:55Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。