論文の概要: $\boldsymbolμ\mathbf{P^2}$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling
- arxiv url: http://arxiv.org/abs/2411.00075v1
- Date: Thu, 31 Oct 2024 16:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:21.808923
- Title: $\boldsymbolμ\mathbf{P^2}$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling
- Title(参考訳): $\boldsymbolμ\mathbf{P^2}$: 有効シャープネス認識最小化は階層的摂動スケーリングを必要とする
- Authors: Moritz Haas, Jin Xu, Volkan Cevher, Leena Chennuru Vankadara,
- Abstract要約: シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。
この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。
対照的に、階層的にスケールする摂動を伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
- 参考スコア(独自算出の注目度): 49.25546155981064
- License:
- Abstract: Sharpness Aware Minimization (SAM) enhances performance across various neural architectures and datasets. As models are continually scaled up to improve performance, a rigorous understanding of SAM's scaling behaviour is paramount. To this end, we study the infinite-width limit of neural networks trained with SAM, using the Tensor Programs framework. Our findings reveal that the dynamics of standard SAM effectively reduce to applying SAM solely in the last layer in wide neural networks, even with optimal hyperparameters. In contrast, we identify a stable parameterization with layerwise perturbation scaling, which we call $\textit{Maximal Update and Perturbation Parameterization}$ ($\mu$P$^2$), that ensures all layers are both feature learning and effectively perturbed in the limit. Through experiments with MLPs, ResNets and Vision Transformers, we empirically demonstrate that $\mu$P$^2$ is the first parameterization to achieve hyperparameter transfer of the joint optimum of learning rate and perturbation radius across model scales. Moreover, we provide an intuitive condition to derive $\mu$P$^2$ for other perturbation rules like Adaptive SAM and SAM-ON, also ensuring balanced perturbation effects across all layers.
- Abstract(参考訳): Sharpness Aware Minimization (SAM)は、さまざまなニューラルネットワークやデータセットのパフォーマンスを向上させる。
モデルを継続的にスケールアップしてパフォーマンスを向上させるため、SAMのスケーリング動作に関する厳密な理解が最重要である。
そこで本研究では,SAMでトレーニングしたニューラルネットワークの無限幅限界について,Tensor Programsフレームワークを用いて検討する。
その結果, SAMの力学は, 最適なハイパーパラメータであっても, 幅広いニューラルネットワークにおいて, SAMを最終層にのみ適用することで効果的に低下することが判明した。
対照的に、階層的な摂動スケーリングを伴う安定なパラメータ化を識別し、それを $\textit{Maximal Update and Perturbation Parameterization}$$$\mu$P$^2$ と呼び、すべてのレイヤが機能学習であり、その制限の中で効果的に摂動することを保証します。
MLP, ResNets, Vision Transformers を用いた実験により, モデルスケールをまたいだ学習速度と摂動半径のジョイント最適値のハイパーパラメータ移動を実現するために, $\mu$P$^2$ が最初のパラメータ化であることを示す。
さらに、Adaptive SAM や SAM-ON のような他の摂動規則に対して$\mu$P$^2$ を導出する直感的な条件を提供する。
関連論文リスト
- Enhancing Sharpness-Aware Minimization by Learning Perturbation Radius [6.78775404181577]
そこで我々は,PerTurbation radiuS という二段階最適化フレームワークを提案し,シャープネスを意識した最小化アルゴリズムの摂動半径を学習する。
計算機ビジョンと自然言語処理における様々なアーキテクチャとベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-15T15:40:57Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Improved Deep Neural Network Generalization Using m-Sharpness-Aware
Minimization [14.40189851070842]
シャープネス・アウェア最小化(SAM)は、基礎となる損失関数を修正し、フラットなミニマへ導出する方法を導出する。
近年の研究ではmSAMがSAMよりも精度が高いことが示唆されている。
本稿では,様々なタスクやデータセットにおけるmSAMの包括的評価について述べる。
論文 参考訳(メタデータ) (2022-12-07T00:37:55Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。