Fugu-MT 論文翻訳(概要): Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization

論文の概要: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization

arxiv url: http://arxiv.org/abs/2303.03108v1
Date: Fri, 3 Mar 2023 16:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 16:05:58.535137
Title: Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization
Title（参考訳）: グラディエントノルム認識の最小化は1次平坦性を追求し、一般化を改善する
Authors: Xingxuan Zhang and Renzhe Xu and Han Yu and Hao Zou and Peng Cui
Abstract要約: ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
参考スコア（独自算出の注目度）: 33.50116027503244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, flat minima are proven to be effective for improving generalization and sharpness-aware minimization (SAM) achieves state-of-the-art performance. Yet the current definition of flatness discussed in SAM and its follow-ups are limited to the zeroth-order flatness (i.e., the worst-case loss within a perturbation radius). We show that the zeroth-order flatness can be insufficient to discriminate minima with low generalization error from those with high generalization error both when there is a single minimum or multiple minima within the given perturbation radius. Thus we present first-order flatness, a stronger measure of flatness focusing on the maximal gradient norm within a perturbation radius which bounds both the maximal eigenvalue of Hessian at local minima and the regularization function of SAM. We also present a novel training procedure named Gradient norm Aware Minimization (GAM) to seek minima with uniformly small curvature across all directions. Experimental results show that GAM improves the generalization of models trained with current optimizers such as SGD and AdamW on various datasets and networks. Furthermore, we show that GAM can help SAM find flatter minima and achieve better generalization.
Abstract（参考訳）: 近年、フラットミニマは一般化とシャープネス認識最小化(sam)の改善に効果的であることが証明されている。しかし、SAMで議論されている平坦性の現在の定義とそのフォローアップはゼロ階平坦性(摂動半径内の最悪の損失)に限定されている。摂動半径内に1つの最小または複数のミニマが存在する場合, 一般化誤差の低いミニマを高い一般化誤差で判別するには, ゼロ階平坦性が不十分であることを示す。そこで我々は,局所的最小点におけるヘッシアンの最大固有値とsamの正規化関数の両方を境界とする摂動半径内の最大勾配ノルムに着目した,一階平坦性を示す。また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。実験結果から,GAMは様々なデータセットやネットワーク上で,SGDやAdamWといった現在の最適化アルゴリズムで訓練されたモデルの一般化を改善することが示された。さらに、GAMはSAMがより平坦なミニマムを見つけ、より良い一般化を実現するのに役立つことを示す。

関連論文リスト

Flat Minima and Generalization: Insights from Stochastic Convex Optimization [22.768090791258242]
学習アルゴリズムは平らなミニマに収束するため、実際に成功している。我々は,平らな経験的ミニマは自明な$Omega(1)$集団リスクを引き起こし,鋭いミニマは最適に一般化することを示した。
論文参考訳（メタデータ） (2025-11-05T15:31:42Z)
A Function Centric Perspective On Flat and Sharp Minima [4.908739793053431]
フラット・ミニマはディープ・ニューラル・ネットワークにおける一般化の改善と相関していると広く信じられている。本稿では, 急激さを関数依存特性として理解することが, 一般化の信頼性の低い指標よりも重要であることを提案する。
論文参考訳（メタデータ） (2025-10-14T12:33:14Z)
Zeroth-Order Optimization Finds Flat Minima [51.41529512093436]
標準二点推定器によるゼロ階最適化は、ヘッセンの小さなトレースを持つ解を好むことを示す。さらに、凸関数と十分に滑らかな関数に対する近似平坦なミニマに対して、ゼロ階最適化の収束率を提供する。
論文参考訳（メタデータ） (2025-06-05T17:59:09Z)
DGSAM: Domain Generalization via Individual Sharpness-Aware Minimization [0.0]
ドメイン一般化(Domain Generalization, DG)は、一連のソースドメインのみをトレーニングすることで、目に見えないドメインに適切に一般化できるモデルを学習することを目的としている。 Sharpness-Aware Minimization (SAM) は、全体の損失状況に平坦なミニマを見つけることを目的として、一般的なアプローチである。本稿では,DGSAM(Dereased-overhead Gradual Sharpness-Aware Minimization)と呼ばれる新しいDGアルゴリズムを導入する。
論文参考訳（メタデータ） (2025-03-30T13:20:06Z)
Meta Curvature-Aware Minimization for Domain Generalization [22.824033201965648]
モデルが平らなミニマに収束することを奨励する改良されたモデルトレーニングプロセスを提案する。そこで我々は,Meta Curvature-Aware Minimization (MeCAM) と呼ばれる新しいアルゴリズムを考案し,局所ミニマ周辺の曲率を最小化する。本稿では,MeCAMの一般化誤差と収束率に関する理論的解析を行い,既存のDG法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T08:22:23Z)
Reweighting Local Mimina with Tilted SAM [24.689230137012174]
シャープネス・アウェアの最小化(SAM)は、平坦な最小値を求めることにより、無限大の一般化性能を向上させることが実証されている。本研究では,より平坦で損失の少ない局所解に対して,効率的に高い優先度を付与するTSAM(TSAM)を提案する。
論文参考訳（メタデータ） (2024-10-30T02:49:48Z)
Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。高速グラフシャープネス認識最小化(FGSAM)を提案する。提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文参考訳（メタデータ） (2024-10-22T09:33:29Z)
Bilateral Sharpness-Aware Minimization for Flatter Minima [61.17349662062522]
Sharpness-Aware Minimization (SAM) は Max-Sharpness (MaxS) を減らして一般化を促進する本稿では,現在の重量を囲む周辺地域のトレーニング損失と最小損失の差を利用して,Min-Sharpness (MinS) と表現する。 MaxSとMinSをマージすることで、最適化中により平坦な方向を示すより良いFIを作成しました。特に、このFIをSAMと組み合わせて提案されたバイラテラルSAM(BSAM)に組み込むことにより、SAMよりもより平坦な最小値を求めることができます。
論文参考訳（メタデータ） (2024-09-20T03:01:13Z)
Agnostic Sharpness-Aware Minimization [29.641227264358704]
シャープネス認識(SAM)は、トレーニング損失とロスランドスケープのシャープネスを最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。 Model-Agnostic Meta-Learning (MAML)は、モデルの適応性を改善するために設計されたフレームワークである。我々はSAMとMAMLの両方の原則を組み合わせた新しいアプローチであるAgnostic-SAMを紹介する。
論文参考訳（メタデータ） (2024-06-11T09:49:00Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2023-03-18T07:25:12Z)
Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。 Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文参考訳（メタデータ） (2023-02-18T16:29:06Z)
GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。 SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-13T10:44:10Z)
Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。 GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文参考訳（メタデータ） (2022-03-15T16:57:59Z)
A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文参考訳（メタデータ） (2020-02-10T02:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。