論文の概要: mSAM: Micro-Batch-Averaged Sharpness-Aware Minimization
- arxiv url: http://arxiv.org/abs/2302.09693v1
- Date: Sun, 19 Feb 2023 23:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:04:40.275752
- Title: mSAM: Micro-Batch-Averaged Sharpness-Aware Minimization
- Title(参考訳): msam: マイクロバッチ平均シャープネス最小化
- Authors: Kayhan Behdin, Qingquan Song, Aman Gupta, Ayan Acharya, David Durfee,
Borja Ocejo, Sathiya Keerthi, Rahul Mazumder
- Abstract要約: シャープネス・アウェア最小化(SAM)は、基礎となる損失関数を修正し、フラットなミニマへ導出する方法を導出する。
我々は最近開発されたフラットネス解析のためのよく研究された一般的なフレームワークを拡張し、シャープネスを意識した最小化のための分散計算が理論的にはフラットネスの最小化を達成できることを示す。
- 参考スコア(独自算出の注目度): 13.714190542866355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning models are over-parameterized, where different optima
can result in widely varying generalization performance. To account for this,
Sharpness-Aware Minimization (SAM) modifies the underlying loss function to
guide descent methods towards flatter minima, which arguably have better
generalization abilities. In this paper, we focus on a variant of SAM known as
micro-batch SAM (mSAM), which, during training, averages the updates generated
by adversarial perturbations across several disjoint shards (micro batches) of
a mini-batch. We extend a recently developed and well-studied general framework
for flatness analysis to show that distributed gradient computation for
sharpness-aware minimization theoretically achieves even flatter minima. In
order to support this theoretical superiority, we provide a thorough empirical
evaluation on a variety of image classification and natural language processing
tasks. We also show that contrary to previous work, mSAM can be implemented in
a flexible and parallelizable manner without significantly increasing
computational costs. Our practical implementation of mSAM yields superior
generalization performance across a wide range of tasks compared to SAM,
further supporting our theoretical framework.
- Abstract(参考訳): 現代のディープラーニングモデルは過度にパラメータ化され、異なる最適化が広く異なる一般化性能をもたらす。
これを説明するために、Sharpness-Aware Minimization (SAM) は、基礎となる損失関数を修正し、よりフラットなミニマへ導出する方法を導出する。
本稿では,マイクロバッチ SAM (mSAM) と呼ばれるSAMの変種に着目し,マイクロバッチのいくつかの相反するシャード(マイクロバッチ)にまたがる対向的摂動によって生じる更新を平均化する。
本稿では,最近開発された平坦性解析の汎用フレームワークを拡張し,シャープネスを認識できる最小化のための分散勾配計算が理論的により平坦な最小化を実現することを示す。
この理論上の優位性をサポートするために,様々な画像分類と自然言語処理タスクについて,徹底した経験的評価を行う。
また, 従来の研究とは対照的に, mSAM は計算コストを大幅に増大させることなく, 柔軟かつ並列的に実装可能であることを示す。
mSAM の実践的な実装は,SAM と比較して幅広いタスクにおいて優れた一般化性能を示し,理論的枠組みをさらに支持する。
関連論文リスト
- Stabilizing Sharpness-aware Minimization Through A Simple
Renormalization Strategy [12.927965934262847]
シャープネス・アウェア(SAM)を用いたニューラルネットワークのトレーニングは非常に不安定である。
そこで我々は、StableSAMと呼ばれる単純な再正規化戦略を提案し、従順勾配のノルムが正確な勾配のノルムを維持する。
本稿は,StableSAMが学習率のこの仕組みをどのように拡張し,SAMを微調整で一貫した性能を実現できるかを示す。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Analyzing Sharpness-aware Minimization under Overparameterization [13.460372481500368]
パラメータ化の超過により,シャープネスを意識した最小化(SAM)が有効であることを示す。
また,2層ネットワークの解析により,パラメータ化によるSAMの一般化が向上することを示す。
論文 参考訳(メタデータ) (2023-11-29T11:19:50Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - On Statistical Properties of Sharpness-Aware Minimization: Provable
Guarantees [5.91402820967386]
シャープネス・アウェアの最小化 (SAM) が一般化する理由について, 新たな理論的説明を行う。
SAMはシャープな問題と非シャープな問題の両方に特に適している。
本研究は,ディープニューラルネットワークを用いた数値実験により検証した。
論文 参考訳(メタデータ) (2023-02-23T07:52:31Z) - SAM operates far from home: eigenvalue regularization as a dynamical
phenomenon [15.332235979022036]
シャープネス認識最小化(SAM)アルゴリズムは、ロス・ヘッセンの大きな固有値を制御することが示されている。
SAMは学習軌跡全体を通して固有値の強い正規化を提供することを示す。
本理論は,学習速度とSAM半径パラメータの関数として最大固有値を予測する。
論文 参考訳(メタデータ) (2023-02-17T04:51:20Z) - Improved Deep Neural Network Generalization Using m-Sharpness-Aware
Minimization [14.40189851070842]
シャープネス・アウェア最小化(SAM)は、基礎となる損失関数を修正し、フラットなミニマへ導出する方法を導出する。
近年の研究ではmSAMがSAMよりも精度が高いことが示唆されている。
本稿では,様々なタスクやデータセットにおけるmSAMの包括的評価について述べる。
論文 参考訳(メタデータ) (2022-12-07T00:37:55Z) - Improving Sharpness-Aware Minimization with Fisher Mask for Better
Generalization on Language Models [93.85178920914721]
限られた訓練コーパス上の微調整された大きな事前訓練された言語モデルは、通常、計算の貧弱さに悩まされる。
本稿では,新しい最適化手法であるFSAMを提案し,SAMの効率と性能を改善するためにフィッシャーマスクを導入した。
FSAMは4種類の事前訓練モデルにおいて,バニラSAMの平均スコア0.671.98を上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:53:58Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。