論文の概要: A Universal Class of Sharpness-Aware Minimization Algorithms
- arxiv url: http://arxiv.org/abs/2406.03682v2
- Date: Mon, 10 Jun 2024 05:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 23:05:25.567522
- Title: A Universal Class of Sharpness-Aware Minimization Algorithms
- Title(参考訳): シャープネスを考慮した最小化アルゴリズムの普遍クラス
- Authors: Behrooz Tahmasebi, Ashkan Soleymani, Dara Bahri, Stefanie Jegelka, Patrick Jaillet,
- Abstract要約: 我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
- 参考スコア(独自算出の注目度): 57.29207151446387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a surge in interest in developing optimization algorithms for overparameterized models as achieving generalization is believed to require algorithms with suitable biases. This interest centers on minimizing sharpness of the original loss function; the Sharpness-Aware Minimization (SAM) algorithm has proven effective. However, most literature only considers a few sharpness measures, such as the maximum eigenvalue or trace of the training loss Hessian, which may not yield meaningful insights for non-convex optimization scenarios like neural networks. Additionally, many sharpness measures are sensitive to parameter invariances in neural networks, magnifying significantly under rescaling parameters. Motivated by these challenges, we introduce a new class of sharpness measures in this paper, leading to new sharpness-aware objective functions. We prove that these measures are \textit{universally expressive}, allowing any function of the training loss Hessian matrix to be represented by appropriate hyperparameters. Furthermore, we show that the proposed objective functions explicitly bias towards minimizing their corresponding sharpness measures, and how they allow meaningful applications to models with parameter invariances (such as scale-invariances). Finally, as instances of our proposed general framework, we present \textit{Frob-SAM} and \textit{Det-SAM}, which are specifically designed to minimize the Frobenius norm and the determinant of the Hessian of the training loss, respectively. We also demonstrate the advantages of our general framework through extensive experiments.
- Abstract(参考訳): 近年、一般化を達成するには適切なバイアスを持つアルゴリズムが必要であると信じられているため、過パラメータ化モデルの最適化アルゴリズム開発への関心が高まっている。
この関心は、元の損失関数のシャープさを最小化することに集中しており、シャープネス・アウェア・最小化(SAM)アルゴリズムが有効であることが証明されている。
しかし、ほとんどの文献では、ニューラルネットワークのような非凸最適化シナリオにおいて意味のある洞察を得られない、最大固有値やトレーニング損失のトレースなど、いくつかのシャープネス測度しか考慮していない。
さらに、多くのシャープネス測定は、ニューラルネットワークのパラメータ不変性に敏感であり、再スケーリングパラメータの下で大幅に増大する。
これらの課題に感化されて,本論文では,新たなシャープネス尺度を導入し,新たなシャープネスを考慮した客観的機能を実現する。
これらの測度がtextit{universally expressive} であることが証明され、訓練損失 Hessian 行列の任意の関数を適切なハイパーパラメータで表すことができる。
さらに,提案した目的関数は,対応するシャープネス尺度の最小化に向けて明らかに偏りを示し,パラメータ不変性を持つモデル(スケール不変性など)に有意義な適用を可能にする方法を示す。
最後に,提案した一般フレームワークの例として,FrobeniusノルムとHessianのトレーニング損失の行列式を最小化するために特別に設計された \textit{Frob-SAM} と \textit{Det-SAM} を提示する。
また、広範な実験を通じて、一般的なフレームワークの利点を実証する。
関連論文リスト
- Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning
of Deep Neural Networks [2.8292841621378844]
スケール不変の適応シャープネスの概念を導入し、対応する一般化境界を提案する。
本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。
各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。
論文 参考訳(メタデータ) (2021-02-23T10:26:54Z) - Asymptotic study of stochastic adaptive algorithm in non-convex
landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。
このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文 参考訳(メタデータ) (2020-12-10T12:54:45Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。