論文の概要: Towards Understanding Sharpness-Aware Minimization
- arxiv url: http://arxiv.org/abs/2206.06232v1
- Date: Mon, 13 Jun 2022 15:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 16:27:51.093669
- Title: Towards Understanding Sharpness-Aware Minimization
- Title(参考訳): シャープネス・アウェア・ミニミゼーションの理解に向けて
- Authors: Maksym Andriushchenko, Nicolas Flammarion
- Abstract要約: Sharpness-Aware Minimization (SAM) の成功に対する既存の正当化は、PACBayes の一般化に基づいていると論じる。
対角線ネットワークの暗黙バイアスを理論的に解析する。
SAMで標準モデルを微調整することで、非シャープネットワークの特性を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 27.666483899332643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness-Aware Minimization (SAM) is a recent training method that relies on
worst-case weight perturbations which significantly improves generalization in
various settings. We argue that the existing justifications for the success of
SAM which are based on a PAC-Bayes generalization bound and the idea of
convergence to flat minima are incomplete. Moreover, there are no explanations
for the success of using $m$-sharpness in SAM which has been shown as essential
for generalization. To better understand this aspect of SAM, we theoretically
analyze its implicit bias for diagonal linear networks. We prove that SAM
always chooses a solution that enjoys better generalization properties than
standard gradient descent for a certain class of problems, and this effect is
amplified by using $m$-sharpness. We further study the properties of the
implicit bias on non-linear networks empirically, where we show that
fine-tuning a standard model with SAM can lead to significant generalization
improvements. Finally, we provide convergence results of SAM for non-convex
objectives when used with stochastic gradients. We illustrate these results
empirically for deep networks and discuss their relation to the generalization
behavior of SAM. The code of our experiments is available at
https://github.com/tml-epfl/understanding-sam.
- Abstract(参考訳): Sharpness-Aware Minimization (SAM) は、様々な設定における一般化を著しく改善する最悪の重み摂動に依存する最近の訓練手法である。
我々は、PAC-ベイズ一般化境界に基づくSAMの成功に対する既存の正当化と平坦なミニマへの収束の考えが不完全であると主張する。
さらに、SAM で$m$-sharpness を使うことの成功については、一般化に必須であることが示されている説明がない。
SAMのこの側面をよりよく理解するために、対角線ネットワークの暗黙バイアスを理論的に分析する。
SAMは常にある種の問題に対して標準勾配降下よりも優れた一般化特性を持つ解を選択しており、この効果は$m$-シャープネスを用いて増幅される。
さらに,非線形ネットワーク上での暗黙バイアスの特性を実証的に研究し,SAMを用いた標準モデルの微調整が一般化の改善につながることを示した。
最後に,確率勾配を用いた非凸目的に対するsamの収束結果を示す。
本稿では,これらの結果を深層ネットワークに実証的に説明し,SAMの一般化挙動との関係について論じる。
実験のコードはhttps://github.com/tml-epfl/understanding-sam.comで公開されている。
関連論文リスト
- Bilateral Sharpness-Aware Minimization for Flatter Minima [61.17349662062522]
Sharpness-Aware Minimization (SAM) は Max-Sharpness (MaxS) を減らして一般化を促進する
本稿では,現在の重量を囲む周辺地域のトレーニング損失と最小損失の差を利用して,Min-Sharpness (MinS) と表現する。
MaxSとMinSをマージすることで、最適化中により平坦な方向を示すより良いFIを作成しました。特に、このFIをSAMと組み合わせて提案されたバイラテラルSAM(BSAM)に組み込むことにより、SAMよりもより平坦な最小値を求めることができます。
論文 参考訳(メタデータ) (2024-09-20T03:01:13Z) - Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics [10.304082706818562]
シャープネス・アウェア(SAM)摂動の摂動は, 好ましくないモデルバイアスを排除し, 摂動を良くする学習信号を示す。
本結果は,損失面の平坦性を必要としない代替力学原理によってSAMの利点を説明できることを示唆している。
論文 参考訳(メタデータ) (2024-06-10T18:02:48Z) - Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - Why Does Sharpness-Aware Minimization Generalize Better Than SGD? [102.40907275290891]
シャープネス・アウェアの最小化(SAM)がデータモデルや2層畳み込みReLUネットワークに対してグラディエントDescent(SGD)よりも優れていることを示す。
その結果,SAMの利点,特に早期の雑音学習を防止し,特徴のより効果的な学習を容易にする能力について解説した。
論文 参考訳(メタデータ) (2023-10-11T07:51:10Z) - ImbSAM: A Closer Look at Sharpness-Aware Minimization in
Class-Imbalanced Recognition [62.20538402226608]
シャープネス・アウェアの最小化(SAM)は,クラス不均衡条件下での一般化問題に対処できないことを示す。
このボトルネックを克服するために,Im Balanced-SAM (ImbSAM) というクラス認識スムーズネス最適化アルゴリズムを提案する。
我々のImbSAMは、テールクラスと異常に対する顕著なパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2023-08-15T14:46:32Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - Sharpness-Aware Minimization Revisited: Weighted Sharpness as a
Regularization Term [4.719514928428503]
正規化項としてシャープネスを組み込んだWSAMという,より一般的な手法を提案する。
PACとBayes-PACの併用による一般化を実証する。
その結果、WSAMは、バニラやSAMとその変種と比較して、より改良された一般化を達成するか、少なくとも高い競争力を持つことを示した。
論文 参考訳(メタデータ) (2023-05-25T08:00:34Z) - On Statistical Properties of Sharpness-Aware Minimization: Provable
Guarantees [5.91402820967386]
シャープネス・アウェアの最小化 (SAM) が一般化する理由について, 新たな理論的説明を行う。
SAMはシャープな問題と非シャープな問題の両方に特に適している。
本研究は,ディープニューラルネットワークを用いた数値実験により検証した。
論文 参考訳(メタデータ) (2023-02-23T07:52:31Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。