論文の概要: Adaptively Sampling-Reusing-Mixing Decomposed Gradients to Speed Up Sharpness Aware Minimization
- arxiv url: http://arxiv.org/abs/2510.03763v1
- Date: Sat, 04 Oct 2025 10:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.238438
- Title: Adaptively Sampling-Reusing-Mixing Decomposed Gradients to Speed Up Sharpness Aware Minimization
- Title(参考訳): シャープネス認識最小化のための適応サンプリング・リユース・ミキシング分解格子
- Authors: Jiaxin Deng, Junbiao Pang,
- Abstract要約: Sharpness-Aware Minimization (SAM) はモデル一般化を改善するが、計算コストは2倍になる。
我々はSAM(ARSAM)を著しく高速化する適応サンプリング-再利用-混合勾配を提案する。
ARSAMは様々なネットワークアーキテクチャでSAMに匹敵する最先端の精度を実現している。
- 参考スコア(独自算出の注目度): 7.33659299625996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness-Aware Minimization (SAM) improves model generalization but doubles the computational cost of Stochastic Gradient Descent (SGD) by requiring twice the gradient calculations per optimization step. To mitigate this, we propose Adaptively sampling-Reusing-mixing decomposed gradients to significantly accelerate SAM (ARSAM). Concretely, we firstly discover that SAM's gradient can be decomposed into the SGD gradient and the Projection of the Second-order gradient onto the First-order gradient (PSF). Furthermore, we observe that the SGD gradient and PSF dynamically evolve during training, emphasizing the growing role of the PSF to achieve a flat minima. Therefore, ARSAM is proposed to the reused PSF and the timely updated PSF still maintain the model's generalization ability. Extensive experiments show that ARSAM achieves state-of-the-art accuracies comparable to SAM across diverse network architectures. On CIFAR-10/100, ARSAM is comparable to SAM while providing a speedup of about 40\%. Moreover, ARSAM accelerates optimization for the various challenge tasks (\textit{e.g.}, human pose estimation, and model quantization) without sacrificing performance, demonstrating its broad practicality.% The code is publicly accessible at: https://github.com/ajiaaa/ARSAM.
- Abstract(参考訳): シャープネス・アウェアの最小化 (SAM) はモデルの一般化を改善するが、最適化ステップあたりの勾配計算を2倍必要とすることで、確率勾配 Descent (SGD) の計算コストを2倍にする。
そこで本研究では, SAM (ARSAM) を著しく高速化するために, 適応サンプリング・リユース混合分解勾配を提案する。
具体的には,SAMの勾配をSGD勾配とPSFへの2階勾配の射影に分解できることを示す。
さらに、トレーニング中にSGD勾配とPSFが動的に進化し、平らなミニマを達成するためにPSFの増大する役割を強調した。
したがって、ARSAMは再利用されたPSFに提案され、タイムリーに更新されたPSFはモデルの一般化能力を維持している。
大規模な実験により、ARSAMは様々なネットワークアーキテクチャでSAMに匹敵する最先端の精度を実現している。
CIFAR-10/100では、ARSAMはSAMに匹敵し、約40倍のスピードアップを提供する。
さらに、ARSAMは、性能を犠牲にすることなく、様々な課題タスク(\textit{e g }、人間のポーズ推定、モデル量子化)の最適化を加速し、その幅広い実用性を示す。
https://github.com/ajiaaa/ARSAM。
関連論文リスト
- SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - Effective Gradient Sample Size via Variation Estimation for Accelerating Sharpness aware Minimization [19.469113881229646]
シャープネス認識最小化(SAM)はモデル一般化能力を改善するために最近提案されている。
SAMは各最適化ステップで勾配を2回計算し、計算コストを2倍にする。
そこで本研究では,SAMを大幅に高速化する簡易かつ効率的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:48:05Z) - Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy [12.050160495730381]
SAM ( sharpness-aware generalization) は性能向上に驚くべき効果があることから注目されている。
本稿では, 安定SAM (SSAM) と呼ばれる単純な再正規化戦略を提案する。
我々の戦略は実装が容易で、SAMとその変種と統合するのに十分な柔軟性があり、ほとんど計算コストがかからない。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - K-SAM: Sharpness-Aware Minimization at the Speed of SGD [83.78737278889837]
シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークの精度を向上させるための堅牢な手法として登場した。
SAMは実際に高い計算コストを発生させ、バニラSGDの2倍の計算を必要とする。
そこで本研究では,最大損失を持つトップkサンプルのみを用いてSAMの両段階の勾配を計算することを提案する。
論文 参考訳(メタデータ) (2022-10-23T21:49:58Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。