論文の概要: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization
- arxiv url: http://arxiv.org/abs/2303.03108v2
- Date: Mon, 19 Jun 2023 17:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:34:04.659603
- Title: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization
- Title(参考訳): グラディエントノルム認識の最小化は1次平坦性を追求し、一般化を改善する
- Authors: Xingxuan Zhang and Renzhe Xu and Han Yu and Hao Zou and Peng Cui
- Abstract要約: ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
- 参考スコア(独自算出の注目度): 33.50116027503244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, flat minima are proven to be effective for improving generalization
and sharpness-aware minimization (SAM) achieves state-of-the-art performance.
Yet the current definition of flatness discussed in SAM and its follow-ups are
limited to the zeroth-order flatness (i.e., the worst-case loss within a
perturbation radius). We show that the zeroth-order flatness can be
insufficient to discriminate minima with low generalization error from those
with high generalization error both when there is a single minimum or multiple
minima within the given perturbation radius. Thus we present first-order
flatness, a stronger measure of flatness focusing on the maximal gradient norm
within a perturbation radius which bounds both the maximal eigenvalue of
Hessian at local minima and the regularization function of SAM. We also present
a novel training procedure named Gradient norm Aware Minimization (GAM) to seek
minima with uniformly small curvature across all directions. Experimental
results show that GAM improves the generalization of models trained with
current optimizers such as SGD and AdamW on various datasets and networks.
Furthermore, we show that GAM can help SAM find flatter minima and achieve
better generalization.
- Abstract(参考訳): 近年、フラットミニマは一般化とシャープネス認識最小化(sam)の改善に効果的であることが証明されている。
しかし、SAMで議論されている平坦性の現在の定義とそのフォローアップはゼロ階平坦性(摂動半径内の最悪の損失)に限定されている。
摂動半径内に1つの最小または複数のミニマが存在する場合, 一般化誤差の低いミニマを高い一般化誤差で判別するには, ゼロ階平坦性が不十分であることを示す。
そこで我々は,局所的最小点におけるヘッシアンの最大固有値とsamの正規化関数の両方を境界とする摂動半径内の最大勾配ノルムに着目した,一階平坦性を示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
実験結果から,GAMは様々なデータセットやネットワーク上で,SGDやAdamWといった現在の最適化アルゴリズムで訓練されたモデルの一般化を改善することが示された。
さらに、GAMはSAMがより平坦なミニマムを見つけ、より良い一般化を実現するのに役立つことを示す。
関連論文リスト
- Reweighting Local Mimina with Tilted SAM [24.689230137012174]
シャープネス・アウェアの最小化(SAM)は、平坦な最小値を求めることにより、無限大の一般化性能を向上させることが実証されている。
本研究では,より平坦で損失の少ない局所解に対して,効率的に高い優先度を付与するTSAM(TSAM)を提案する。
論文 参考訳(メタデータ) (2024-10-30T02:49:48Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Bilateral Sharpness-Aware Minimization for Flatter Minima [61.17349662062522]
Sharpness-Aware Minimization (SAM) は Max-Sharpness (MaxS) を減らして一般化を促進する
本稿では,現在の重量を囲む周辺地域のトレーニング損失と最小損失の差を利用して,Min-Sharpness (MinS) と表現する。
MaxSとMinSをマージすることで、最適化中により平坦な方向を示すより良いFIを作成しました。特に、このFIをSAMと組み合わせて提案されたバイラテラルSAM(BSAM)に組み込むことにより、SAMよりもより平坦な最小値を求めることができます。
論文 参考訳(メタデータ) (2024-09-20T03:01:13Z) - Agnostic Sharpness-Aware Minimization [29.641227264358704]
シャープネス認識(SAM)は、トレーニング損失とロスランドスケープのシャープネスを最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
Model-Agnostic Meta-Learning (MAML)は、モデルの適応性を改善するために設計されたフレームワークである。
我々はSAMとMAMLの両方の原則を組み合わせた新しいアプローチであるAgnostic-SAMを紹介する。
論文 参考訳(メタデータ) (2024-06-11T09:49:00Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-13T10:44:10Z) - Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文 参考訳(メタデータ) (2022-03-15T16:57:59Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。