論文の概要: Avoiding spurious sharpness minimization broadens applicability of SAM
- arxiv url: http://arxiv.org/abs/2502.02407v1
- Date: Tue, 04 Feb 2025 15:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:11.452792
- Title: Avoiding spurious sharpness minimization broadens applicability of SAM
- Title(参考訳): スパイラルシャープネス最小化の回避はSAMの適用性を拡大する
- Authors: Sidak Pal Singh, Hossein Mobahi, Atish Agarwala, Yann Dauphin,
- Abstract要約: シャープネス・アウェア・最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で非常に有望である。
SAMは自然言語処理(NLP)のようなドメインではパフォーマンスが悪く、計算予算の2倍であっても、パフォーマンスが劣化することがよくあります。
そこで我々は,関数の統計量を変更することでのみ曲率を正規化する関数SAMというアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 13.21265875272573
- License:
- Abstract: Curvature regularization techniques like Sharpness Aware Minimization (SAM) have shown great promise in improving generalization on vision tasks. However, we find that SAM performs poorly in domains like natural language processing (NLP), often degrading performance -- even with twice the compute budget. We investigate the discrepancy across domains and find that in the NLP setting, SAM is dominated by regularization of the logit statistics -- instead of improving the geometry of the function itself. We use this observation to develop an alternative algorithm we call Functional-SAM, which regularizes curvature only through modification of the statistics of the overall function implemented by the neural network, and avoids spurious minimization through logit manipulation. Furthermore, we argue that preconditioning the SAM perturbation also prevents spurious minimization, and when combined with Functional-SAM, it gives further improvements. Our proposed algorithms show improved performance over AdamW and SAM baselines when trained for an equal number of steps, in both fixed-length and Chinchilla-style training settings, at various model scales (including billion-parameter scale). On the whole, our work highlights the importance of more precise characterizations of sharpness in broadening the applicability of curvature regularization to large language models (LLMs).
- Abstract(参考訳): シャープネス認識最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で大きな可能性を示している。
しかし、SAMは自然言語処理(NLP)のようなドメインでは性能が悪く、処理予算の2倍であっても性能が劣化することが多い。NLP設定では、SAMは関数自体の幾何学的改善ではなく、ロジット統計の正規化に支配されている。
我々は,ニューラルネットワークが実装した全体関数の統計量を変更することでのみ曲率を正規化し,ロジット操作による急激な最小化を回避する関数SAMという代替アルゴリズムを開発する。
さらに,SAM摂動のプレコンディショニングは急激な最小化を防ぎ,Functional-SAMと組み合わせることでさらなる改善が期待できる。
提案アルゴリズムは,定長およびチンチラスタイルのトレーニング設定において,各種モデルスケール(10億パラメータスケールを含む)において,AdamWとSAMのベースラインを同等のステップでトレーニングした場合のパフォーマンスが向上したことを示す。
本研究は,大言語モデル(LLM)への曲率正規化の適用性を拡大する上で,シャープネスのより正確な特徴付けの重要性を強調した。
関連論文リスト
- Preconditioned Sharpness-Aware Minimization: Unifying Analysis and a Novel Learning Algorithm [39.656014609027494]
シャープネスを意識した最小化(SAM)は、ディープニューラルネットワークベースの学習の一般化性を改善する強力なツールとして登場した。
この寄与はプリコンディショニング(pre)を利用してSAM変種を統一し、統一収束解析だけでなく、貴重な洞察を提供する。
informationSAMと呼ばれる新しいアルゴリズムを導入し、ノイズ推定による勾配の調整によりSAMのいわゆる逆モデル劣化問題に対処する。
論文 参考訳(メタデータ) (2025-01-11T18:05:33Z) - μP$^2$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling [49.25546155981064]
シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。
この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。
対照的に、階層的なスケーリングを伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
論文 参考訳(メタデータ) (2024-10-31T16:32:04Z) - Implicit Regularization of Sharpness-Aware Minimization for Scale-Invariant Problems [26.377807940655305]
この研究は均衡性という概念を導入し、2つの変数の平方ノルムの差として定義される。
我々は,スケール不変問題に適した資源効率のSAM変種である平衡性認識正規化(BAR)を開発した。
論文 参考訳(メタデータ) (2024-10-18T18:19:18Z) - Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy [12.050160495730381]
SAM ( sharpness-aware generalization) は性能向上に驚くべき効果があることから注目されている。
本稿では, 安定SAM (SSAM) と呼ばれる単純な再正規化戦略を提案する。
我々の戦略は実装が容易で、SAMとその変種と統合するのに十分な柔軟性があり、ほとんど計算コストがかからない。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Improved Deep Neural Network Generalization Using m-Sharpness-Aware
Minimization [14.40189851070842]
シャープネス・アウェア最小化(SAM)は、基礎となる損失関数を修正し、フラットなミニマへ導出する方法を導出する。
近年の研究ではmSAMがSAMよりも精度が高いことが示唆されている。
本稿では,様々なタスクやデータセットにおけるmSAMの包括的評価について述べる。
論文 参考訳(メタデータ) (2022-12-07T00:37:55Z) - Improving Sharpness-Aware Minimization with Fisher Mask for Better
Generalization on Language Models [93.85178920914721]
限られた訓練コーパス上の微調整された大きな事前訓練された言語モデルは、通常、計算の貧弱さに悩まされる。
本稿では,新しい最適化手法であるFSAMを提案し,SAMの効率と性能を改善するためにフィッシャーマスクを導入した。
FSAMは4種類の事前訓練モデルにおいて,バニラSAMの平均スコア0.671.98を上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:53:58Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。