論文の概要: Sharpness-Aware Minimization for Efficiently Improving Generalization
- arxiv url: http://arxiv.org/abs/2010.01412v3
- Date: Thu, 29 Apr 2021 16:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 08:53:13.014402
- Title: Sharpness-Aware Minimization for Efficiently Improving Generalization
- Title(参考訳): 一般化を効率的に改善するためのシャープネスアウェア最小化
- Authors: Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur
- Abstract要約: 本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
- 参考スコア(独自算出の注目度): 36.87818971067698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's heavily overparameterized models, the value of the training loss
provides few guarantees on model generalization ability. Indeed, optimizing
only the training loss value, as is commonly done, can easily lead to
suboptimal model quality. Motivated by prior work connecting the geometry of
the loss landscape and generalization, we introduce a novel, effective
procedure for instead simultaneously minimizing loss value and loss sharpness.
In particular, our procedure, Sharpness-Aware Minimization (SAM), seeks
parameters that lie in neighborhoods having uniformly low loss; this
formulation results in a min-max optimization problem on which gradient descent
can be performed efficiently. We present empirical results showing that SAM
improves model generalization across a variety of benchmark datasets (e.g.,
CIFAR-10, CIFAR-100, ImageNet, finetuning tasks) and models, yielding novel
state-of-the-art performance for several. Additionally, we find that SAM
natively provides robustness to label noise on par with that provided by
state-of-the-art procedures that specifically target learning with noisy
labels. We open source our code at
\url{https://github.com/google-research/sam}.
- Abstract(参考訳): 今日の過度なパラメータ化モデルでは、トレーニング損失の値は、モデルの一般化能力に関する保証はほとんどない。
実際、トレーニング損失値のみを最適化することは、一般的に行われるように、最適でないモデル品質につながる可能性がある。
損失景観の幾何学と一般化を結びつけた先行研究に動機づけられ,損失値と損失シャープネスを同時に最小化する新しい効果的な手順を提案する。
特に, シャープネス・アウェアの最小化 (SAM) では, 均一に低損失の近傍に位置するパラメータを探索し, この定式化により, 勾配降下を効率的に行うことができる min-max 最適化問題を導出する。
SAMは様々なベンチマークデータセット(CIFAR-10, CIFAR-100, ImageNet, 微調整タスクなど)とモデル間でモデルの一般化を改良し、新しい最先端性能を実現していることを示す実験結果を示す。
さらに、samはノイズラベルのラベル付けに頑健性を提供し、ノイズラベルの学習を特にターゲットとする最先端の手順と同等であることがわかった。
ソースコードは \url{https://github.com/google-research/sam} で公開しています。
関連論文リスト
- A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。