論文の概要: Towards Efficient and Scalable Sharpness-Aware Minimization
- arxiv url: http://arxiv.org/abs/2203.02714v1
- Date: Sat, 5 Mar 2022 11:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 13:10:56.690701
- Title: Towards Efficient and Scalable Sharpness-Aware Minimization
- Title(参考訳): 効率的・スケーラブルなシャープネス最小化に向けて
- Authors: Yong Liu, Siqi Mai, Xiangning Chen, Cho-Jui Hsieh, Yang You
- Abstract要約: 内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
- 参考スコア(独自算出の注目度): 81.22779501753695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Sharpness-Aware Minimization (SAM), which connects the geometry of
the loss landscape and generalization, has demonstrated significant performance
boosts on training large-scale models such as vision transformers. However, the
update rule of SAM requires two sequential (non-parallelizable) gradient
computations at each step, which can double the computational overhead. In this
paper, we propose a novel algorithm LookSAM - that only periodically calculates
the inner gradient ascent, to significantly reduce the additional training cost
of SAM. The empirical results illustrate that LookSAM achieves similar accuracy
gains to SAM while being tremendously faster - it enjoys comparable
computational complexity with first-order optimizers such as SGD or Adam. To
further evaluate the performance and scalability of LookSAM, we incorporate a
layer-wise modification and perform experiments in the large-batch training
scenario, which is more prone to converge to sharp local minima. We are the
first to successfully scale up the batch size when training Vision Transformers
(ViTs). With a 64k batch size, we are able to train ViTs from scratch in
minutes while maintaining competitive performance.
- Abstract(参考訳): 近年,ロスランドスケープの幾何学と一般化を結びつけるシャープネス・アウェアの最小化(SAM)が,視覚トランスフォーマーなどの大規模モデルのトレーニングにおいて,大幅な性能向上を実現している。
しかし、SAMの更新ルールは、各ステップで2つの逐次(並列化不可能な)勾配計算を必要とするため、計算オーバーヘッドは2倍になる。
本論文では,内勾配上昇を周期的にのみ計算し,SAMのトレーニングコストを大幅に削減する新しいアルゴリズムであるLookSAMを提案する。
LookSAMは、SGDやAdamのような一階最適化器と同等の計算複雑性を享受しています。
lookamの性能と拡張性をさらに評価するため,我々は,階層的な修正と,シャープなローカルミニマに収束しやすい大規模バッチトレーニングシナリオにおける実験を行う。
Vision Transformer (ViTs) のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
64kのバッチサイズで、競争性能を維持しながら、スクラッチから数分でViTをトレーニングすることができます。
関連論文リスト
- SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - Efficient Sharpness-Aware Minimization for Molecular Graph Transformer Models [42.59948316941217]
シャープネスを意識した最小化(SAM)は、訓練軌道と一般化劣化からシャープな局所最小化を効果的に排除できるため、コンピュータビジョンにおいて注目を集めている。
本稿では、SAMのトレーニングコストを削減し、グラフトランスフォーマーモデルの一般化性能を向上させる、GraphSAMという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T01:03:23Z) - Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy [12.050160495730381]
SAM ( sharpness-aware generalization) は性能向上に驚くべき効果があることから注目されている。
本稿では, 安定SAM (SSAM) と呼ばれる単純な再正規化戦略を提案する。
我々の戦略は実装が容易で、SAMとその変種と統合するのに十分な柔軟性があり、ほとんど計算コストがかからない。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Improved Deep Neural Network Generalization Using m-Sharpness-Aware
Minimization [14.40189851070842]
シャープネス・アウェア最小化(SAM)は、基礎となる損失関数を修正し、フラットなミニマへ導出する方法を導出する。
近年の研究ではmSAMがSAMよりも精度が高いことが示唆されている。
本稿では,様々なタスクやデータセットにおけるmSAMの包括的評価について述べる。
論文 参考訳(メタデータ) (2022-12-07T00:37:55Z) - K-SAM: Sharpness-Aware Minimization at the Speed of SGD [83.78737278889837]
シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークの精度を向上させるための堅牢な手法として登場した。
SAMは実際に高い計算コストを発生させ、バニラSGDの2倍の計算を必要とする。
そこで本研究では,最大損失を持つトップkサンプルのみを用いてSAMの両段階の勾配を計算することを提案する。
論文 参考訳(メタデータ) (2022-10-23T21:49:58Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。