論文の概要: Adaptive Sharpness-Aware Minimization with a Polyak-type Step size: A Theory-Grounded Scheduler
- arxiv url: http://arxiv.org/abs/2606.01827v1
- Date: Mon, 01 Jun 2026 07:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.572882
- Title: Adaptive Sharpness-Aware Minimization with a Polyak-type Step size: A Theory-Grounded Scheduler
- Title(参考訳): ポリアク型ステップサイズを持つ適応シャープネス認識最小化:理論付きスケジューリング器
- Authors: Dimitris Oikonomou, Nicolas Loizou,
- Abstract要約: Sharpness-Aware Minimization (SAM)は、強力で広く採用されている機械学習モデルとして自らを確立している。
SAMとその変種は、ほとんどのトレーニングアルゴリズムと同様に、学習率の選択に敏感である。
本研究では、SAMスタイルの更新に合わせたPolyakスケジューラを導出する。
提案したPolyakスケジューラはSAMベースラインを慎重に調整するよりもパフォーマンスが優れていることを示す実験である。
- 参考スコア(独自算出の注目度): 16.39606116102731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness-Aware Minimization (SAM) has established itself as a powerful and widely adopted optimizer for training machine learning models. By explicitly minimizing the sharpness of the loss landscape, SAM often improves generalization while delivering strong empirical performance. However, SAM and its variants, like most training algorithms, are sensitive to the choice of learning rate, which is typically selected through extensive hyperparameter tuning or predefined schedulers. In this work, motivated by recent advances on the effectiveness of stochastic Polyak step sizes for Stochastic Gradient Descent (SGD), we derive Polyak schedulers tailored to SAM-style updates, yielding novel adaptive algorithms in both deterministic and stochastic settings. In the smooth setting, we prove linear convergence for strongly convex objectives and an $\mathcal{O}(1/T)$ convergence rate for convex objectives in the deterministic case. In the stochastic setting, we establish analogous convergence guarantees up to a neighborhood of the optimum. Numerical experiments demonstrate that the proposed Polyak schedulers achieve performance comparable to or better than carefully tuned SAM baselines, while substantially reducing the need for learning-rate tuning.
- Abstract(参考訳): Sharpness-Aware Minimization (SAM)は、機械学習モデルをトレーニングするための強力で広く採用されているオプティマイザとして、自らを確立している。
ロスランドスケープのシャープさを明示的に最小化することにより、SAMは強力な経験的性能を提供しながら、しばしば一般化を改善する。
しかし、SAMとその変種は、ほとんどのトレーニングアルゴリズムと同様に、広範囲なハイパーパラメータチューニングや事前定義されたスケジューラによって選択される学習率の選択に敏感である。
本研究では,SGD(Stochastic Gradient Descent)における確率的Polyakステップサイズの有効性の最近の進歩を動機として,SAMスタイルの更新に適したPolyakスケジューラを導出し,決定論的および確率的設定において新しい適応アルゴリズムを実現する。
滑らかな設定では、強い凸対象に対する線型収束と、決定論的ケースにおける凸対象に対する$\mathcal{O}(1/T)$収束率を証明する。
確率的設定では、近似収束は最適の近傍まで保証される。
数値実験により,提案したPolyakスケジューラはSAMベースラインを慎重に調整するよりも高い性能を実現し,学習速度チューニングの必要性を大幅に低減した。
関連論文リスト
- Sparse Layer Sharpness-Aware Minimization for Efficient Fine-Tuning [52.63618112418439]
シャープネス対応計算(SAM)は、細調整を含む機械学習タスクの一般化性能を改善するために、平らなロスランドスケープを持つミニマを求める。
本稿では,層にスパース手法を導入することにより,このボトルネックを解消するアプローチSL-SAMを提案する。
論文 参考訳(メタデータ) (2026-02-10T04:05:43Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Zeroth-Order Sharpness-Aware Learning with Exponential Tilting [5.409688800035885]
傾きパラメータ$t$でパラメータ化されたソフトシャープネスの目的を解くため、新しいゼロ階アルゴリズムを探索する。
傾斜SAMフレームワークのシャープネスの概念を正確に評価する。
我々の手法はSAMの変種に代えて、勾配のないメモリ効率の代替として利用することができる。
論文 参考訳(メタデータ) (2025-10-17T19:01:34Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。
我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。
また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文 参考訳(メタデータ) (2025-02-26T21:30:34Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Avoiding spurious sharpness minimization broadens applicability of SAM [13.21265875272573]
シャープネス・アウェア・最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で非常に有望である。
SAMは自然言語処理(NLP)のようなドメインではパフォーマンスが悪く、計算予算の2倍であっても、パフォーマンスが劣化することがよくあります。
そこで我々は,関数の統計量を変更することでのみ曲率を正規化する関数SAMというアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-04T15:25:47Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Randomized Sharpness-Aware Training for Boosting Computational
Efficiency in Deep Learning [13.937644559223548]
我々はRandomized Sharpness-Aware Training (RST)と呼ばれるシンプルで効率的なトレーニング手法を提案する。RSTのRSTは、ベースアルゴリズム(SGD)とシャープネス・アウェアアルゴリズム(SAM)からランダムに選択するために、各イテレーションでベルヌーイ試行を行う。
その結果、G-RSTはSAMよりも50%のコストを節約できることがわかった。
論文 参考訳(メタデータ) (2022-03-18T13:57:17Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。