論文の概要: An SDE for Modeling SAM: Theory and Insights
- arxiv url: http://arxiv.org/abs/2301.08203v1
- Date: Thu, 19 Jan 2023 17:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:22:33.638933
- Title: An SDE for Modeling SAM: Theory and Insights
- Title(参考訳): SAMモデリングのためのSDE:理論と展望
- Authors: Enea Monzio Compagnoni, Antonio Orvieto, Luca Biggio, Hans Kersting,
Frank Norbert Proske, Aurelien Lucchi
- Abstract要約: 最近注目されているSAM(Sharpness-Aware Minimization)について検討する。
我々の主な貢献はSAMとその非正規化USAMに対する連続時間モデル(SDEの形で)の導出である。
- 参考スコア(独自算出の注目度): 7.1967126772249586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the SAM (Sharpness-Aware Minimization) optimizer which has recently
attracted a lot of interest due to its increased performance over more
classical variants of stochastic gradient descent. Our main contribution is the
derivation of continuous-time models (in the form of SDEs) for SAM and its
unnormalized variant USAM, both for the full-batch and mini-batch settings. We
demonstrate that these SDEs are rigorous approximations of the real
discrete-time algorithms (in a weak sense, scaling linearly with the step
size). Using these models, we then offer an explanation of why SAM prefers flat
minima over sharp ones - by showing that it minimizes an implicitly regularized
loss with a Hessian-dependent noise structure. Finally, we prove that perhaps
unexpectedly SAM is attracted to saddle points under some realistic conditions.
Our theoretical results are supported by detailed experiments.
- Abstract(参考訳): より古典的な確率勾配勾配よりも高い性能を持つSAM(Sharpness-Aware Minimization)オプティマイザについて検討した。
我々の主な貢献は、SAMの連続時間モデル(SDEの形で)とその非正規化されたUSAM(フルバッチとミニバッチの両方)の導出である。
これらのSDEは実離散時間アルゴリズムの厳密な近似であることを示す(弱い意味では、ステップサイズと線形にスケーリングする)。
これらのモデルを用いて、SAMがシャープなモデルよりもフラットなミニマを好む理由を説明する。
最後に、SAMが現実的な条件下でのサドル点に惹かれていることを証明する。
我々の理論結果は詳細な実験によって裏付けられている。
関連論文リスト
- Analyzing Sharpness-aware Minimization under Overparameterization [13.460372481500368]
パラメータ化の超過により,シャープネスを意識した最小化(SAM)が有効であることを示す。
また,2層ネットワークの解析により,パラメータ化によるSAMの一般化が向上することを示す。
論文 参考訳(メタデータ) (2023-11-29T11:19:50Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - mSAM: Micro-Batch-Averaged Sharpness-Aware Minimization [20.560184120992094]
シャープネス・アウェアの最小化手法は、フラットな最小化に向けて勾配降下法を操る基本損失関数を変更する。
我々は最近開発されたフラットネス解析のためのよく研究された一般的なフレームワークを拡張し、SAMがSGDよりもフラットなミニマを達成し、mSAMがSAMよりもフラットなミニマを達成できることを理論的に示す。
論文 参考訳(メタデータ) (2023-02-19T23:27:12Z) - SAM operates far from home: eigenvalue regularization as a dynamical
phenomenon [15.332235979022036]
シャープネス認識最小化(SAM)アルゴリズムは、ロス・ヘッセンの大きな固有値を制御することが示されている。
SAMは学習軌跡全体を通して固有値の強い正規化を提供することを示す。
本理論は,学習速度とSAM半径パラメータの関数として最大固有値を予測する。
論文 参考訳(メタデータ) (2023-02-17T04:51:20Z) - Stability Analysis of Sharpness-Aware Minimization [5.024497308975435]
Sharpness-Aware(SAM)は、ディープラーニングにおいてフラットなミニマを見つけるための、最近提案されたトレーニング手法である。
本稿では,SAM力学がサドル点付近で発生する収束不安定性を有することを示す。
論文 参考訳(メタデータ) (2023-01-16T08:42:40Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Towards Understanding Sharpness-Aware Minimization [27.666483899332643]
Sharpness-Aware Minimization (SAM) の成功に対する既存の正当化は、PACBayes の一般化に基づいていると論じる。
対角線ネットワークの暗黙バイアスを理論的に解析する。
SAMで標準モデルを微調整することで、非シャープネットワークの特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-13T15:07:32Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。