Fugu-MT 論文翻訳(概要): Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate

論文の概要: Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate

arxiv url: http://arxiv.org/abs/2409.09984v1
Date: Mon, 16 Sep 2024 04:27:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 16:40:52.847219
Title: Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate
Title（参考訳）: バッチサイズの増加と学習速度の低下を利用したシャープネスを考慮した最小化アルゴリズムの収束性
Authors: Hinata Harada, Hideaki Iiduka,
Abstract要約: シャープネス・アウェア(SAM)アルゴリズムとその変種であるギャップガイドSAM(GSAM)は、ディープニューラルネットワークモデルの一般化能力の向上に成功している。理論的、実用的には、バッチサイズの増加や学習率の低下は、経験的損失の急激な局所的最小化を避けることが示されている。 SAM(GSAM)とバッチサイズの増加の有無を数値的に比較した結果,バッチサイズの増加や学習速度の低下は,一定のバッチサイズや学習率よりも平坦な局所最小値を求めることがわかった。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sharpness-aware minimization (SAM) algorithm and its variants, including gap guided SAM (GSAM), have been successful at improving the generalization capability of deep neural network models by finding flat local minima of the empirical loss in training. Meanwhile, it has been shown theoretically and practically that increasing the batch size or decaying the learning rate avoids sharp local minima of the empirical loss. In this paper, we consider the GSAM algorithm with increasing batch sizes or decaying learning rates, such as cosine annealing or linear learning rate, and theoretically show its convergence. Moreover, we numerically compare SAM (GSAM) with and without an increasing batch size and conclude that using an increasing batch size or decaying learning rate finds flatter local minima than using a constant batch size and learning rate.
Abstract（参考訳）: シャープネス認識最小化(SAM)アルゴリズムとその変種であるギャップガイドSAM(GSAM)は、訓練における経験的損失の平坦な局所最小値を見つけることにより、ディープニューラルネットワークモデルの一般化能力の向上に成功している。一方, バッチサイズの増加や学習速度の低下は, 経験的損失の急激な局所的最小化を回避できることが理論的に, 実用的に証明されている。本稿では,コサインアニールや線形学習率などのバッチサイズの増加や学習速度の低下を考慮したGSAMアルゴリズムについて考察し,その収束性を理論的に示す。さらに,SAM(GSAM)とバッチサイズの増加の有無を数値的に比較した結果,バッチサイズの増加や学習速度の低下は,一定のバッチサイズや学習率よりも平坦な局所最小値を求めることがわかった。

関連論文リスト

Adaptive Batch Size and Learning Rate Scheduler for Stochastic Gradient Descent Based on Minimization of Stochastic First-order Oracle Complexity [0.6906005491572401]
ミニバッチ勾配降下(SGD)の収束挙動はバッチサイズと学習速度設定に非常に敏感である。最近の理論的研究により、第一次オラクルの複雑さを最小限に抑える臨界バッチサイズの存在が確認されている。臨界バッチサイズに関する理論的な知見を生かしたSGDを高速化するための適応スケジューリング戦略が導入された。
論文参考訳（メタデータ） (2025-08-07T12:00:53Z)
Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文参考訳（メタデータ） (2025-08-07T11:52:25Z)
Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum [0.6906005491572401]
運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
論文参考訳（メタデータ） (2025-01-15T15:53:27Z)
Systematic Investigation of Sparse Perturbed Sharpness-Aware Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。 SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文参考訳（メタデータ） (2023-06-30T09:33:41Z)
AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。 AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2023-03-01T15:12:42Z)
Efficient Generalization Improvement Guided by Random Weight Perturbation [24.027159739234524]
Gruesome-aware Minimization (SAM)は、一般化の改善のための一般的なスキームを確立する。我々は、SAMのネスト勾配を分離するために、フィルタワイズランダムウェイト摂動(RWP)を利用する。我々は、CIFAR上での非常に競争力のあるパフォーマンスと、ImageNet上での極めて優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-11-21T14:24:34Z)
Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文参考訳（メタデータ） (2022-10-11T06:30:10Z)
Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。 SAFは、改善された能力で最小限の平らな収束を保証する。
論文参考訳（メタデータ） (2022-05-27T16:32:43Z)
Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。 LookSAMはSAMと同じような精度を実現し、非常に高速である。 Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文参考訳（メタデータ） (2022-03-05T11:53:37Z)
Efficient Sharpness-aware Minimization for Improved Training of Neural Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。 Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文参考訳（メタデータ） (2021-10-07T02:20:37Z)
ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks [2.8292841621378844]
スケール不変の適応シャープネスの概念を導入し、対応する一般化境界を提案する。本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。
論文参考訳（メタデータ） (2021-02-23T10:26:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。