論文の概要: Effective Gradient Sample Size via Variation Estimation for Accelerating Sharpness aware Minimization
- arxiv url: http://arxiv.org/abs/2403.08821v1
- Date: Sat, 24 Feb 2024 05:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 05:40:54.637021
- Title: Effective Gradient Sample Size via Variation Estimation for Accelerating Sharpness aware Minimization
- Title(参考訳): 適応型シャープネス認識最小化のための変分推定による効率的な勾配サンプルサイズ
- Authors: Jiaxin Deng, Junbiao Pang, Baochang Zhang, Tian Wang,
- Abstract要約: シャープネス認識最小化(SAM)はモデル一般化能力を改善するために最近提案されている。
SAMは各最適化ステップで勾配を2回計算し、計算コストを2倍にする。
そこで本研究では,SAMを大幅に高速化する簡易かつ効率的なサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 19.469113881229646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness-aware Minimization (SAM) has been proposed recently to improve model generalization ability. However, SAM calculates the gradient twice in each optimization step, thereby doubling the computation costs compared to stochastic gradient descent (SGD). In this paper, we propose a simple yet efficient sampling method to significantly accelerate SAM. Concretely, we discover that the gradient of SAM is a combination of the gradient of SGD and the Projection of the Second-order gradient matrix onto the First-order gradient (PSF). PSF exhibits a gradually increasing frequency of change during the training process. To leverage this observation, we propose an adaptive sampling method based on the variation of PSF, and we reuse the sampled PSF for non-sampling iterations. Extensive empirical results illustrate that the proposed method achieved state-of-the-art accuracies comparable to SAM on diverse network architectures.
- Abstract(参考訳): シャープネス認識最小化(SAM)はモデル一般化能力を改善するために最近提案されている。
しかし、SAMは各最適化ステップで勾配を2倍に計算し、確率勾配降下(SGD)と比較して計算コストを2倍にする。
本稿では,SAMを著しく高速化する簡易かつ効率的なサンプリング手法を提案する。
具体的には、SAMの勾配はSGDの勾配と2階勾配行列のPSFへの射影の組合せであることが分かる。
PSFは、トレーニングプロセス中に徐々に変化の頻度が増加する。
そこで本研究では,PSFの変動に基づく適応サンプリング手法を提案し,サンプルPSFを非サンプリング繰り返しに再利用する。
その結果,提案手法は多様なネットワークアーキテクチャ上でSAMに匹敵する最先端の精度を達成できた。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - Quantum Shadow Gradient Descent for Variational Quantum Algorithms [14.286227676294034]
量子ニューラルネットワーク(QNN)における変分量子回路のトレーニングのための勾配勾配推定法が提案されている。
勾配推定の課題は、状態崩壊や測定の不整合といった特異な量子的特徴のために困難であることが証明されている。
我々は,1イテレーション毎に1つのサンプルを用いて勾配のすべての成分を推定する量子シャドウ降下という新しい手法を開発した。
論文 参考訳(メタデータ) (2023-10-10T18:45:43Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - Preferential Subsampling for Stochastic Gradient Langevin Dynamics [3.158346511479111]
勾配MCMCは、データの小さな一様重み付きサブサンプルを持つ対数姿勢の勾配をバイアスなく見積もっている。
得られた勾配推定器は、高いばらつきおよび衝撃サンプリング性能を示すことができる。
このような手法は,使用中の平均サブサンプルサイズを大幅に削減しつつ,同じレベルの精度を維持することができることを示す。
論文 参考訳(メタデータ) (2022-10-28T14:56:18Z) - Rethinking Sharpness-Aware Minimization as Variational Inference [1.749935196721634]
シャープネス・アウェア (SAM) は、平坦なミニマを求めることによって勾配学習の一般化を改善することを目的としている。
ニューラルネットパラメータのSAMと平均変分推論(MFVI)の接続を確立する。
論文 参考訳(メタデータ) (2022-10-19T10:35:54Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。