論文の概要: Sparse Layer Sharpness-Aware Minimization for Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.09395v1
- Date: Tue, 10 Feb 2026 04:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.370878
- Title: Sparse Layer Sharpness-Aware Minimization for Efficient Fine-Tuning
- Title(参考訳): 高効率微調整のためのスパース層シャープネスの最小化
- Authors: Yifei Cheng, Xianglin Yang, Guoxia Wang, Chao Huang, Fei Ma, Dianhai Yu, Xiaochun Cao, Li Shen,
- Abstract要約: シャープネス対応計算(SAM)は、細調整を含む機械学習タスクの一般化性能を改善するために、平らなロスランドスケープを持つミニマを求める。
本稿では,層にスパース手法を導入することにより,このボトルネックを解消するアプローチSL-SAMを提案する。
- 参考スコア(独自算出の注目度): 52.63618112418439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness-aware minimization (SAM) seeks the minima with a flat loss landscape to improve the generalization performance in machine learning tasks, including fine-tuning. However, its extra parameter perturbation step doubles the computation cost, which becomes the bottleneck of SAM in the practical implementation. In this work, we propose an approach SL-SAM to break this bottleneck by introducing the sparse technique to layers. Our key innovation is to frame the dynamic selection of layers for both the gradient ascent (perturbation) and descent (update) steps as a multi-armed bandit problem. At the beginning of each iteration, SL-SAM samples a part of the layers of the model according to the gradient norm to participate in the backpropagation of the following parameter perturbation and update steps, thereby reducing the computation complexity. We then provide the analysis to guarantee the convergence of SL-SAM. In the experiments of fine-tuning models in several tasks, SL-SAM achieves the performances comparable to the state-of-the-art baselines, including a \#1 rank on LLM fine-tuning. Meanwhile, SL-SAM significantly reduces the ratio of active parameters in backpropagation compared to vanilla SAM (SL-SAM activates 47\%, 22\% and 21\% parameters on the vision, moderate and large language model respectively while vanilla SAM always activates 100\%), verifying the efficiency of our proposed algorithm.
- Abstract(参考訳): シャープネスを意識した最小化(SAM)は、微調整を含む機械学習タスクの一般化性能を改善するために、平らなロスランドスケープを持つミニマを求める。
しかし、その余分なパラメータ摂動ステップは計算コストを2倍にし、実際的な実装におけるSAMのボトルネックとなる。
本研究では,層にスパース手法を導入することにより,このボトルネックを解消する手法としてSL-SAMを提案する。
我々の重要な革新は、多武装バンディット問題として勾配上昇(摂動)と降下(更新)の両方のステップを動的に選択することである。
各イテレーションの開始時に、SL-SAMは勾配ノルムに従ってモデルの層の一部をサンプリングし、次のパラメータの摂動と更新ステップのバックプロパゲーションに参加する。
次に、SL-SAMの収束を保証する解析を行う。
いくつかのタスクにおけるファインチューニングモデルの実験において、SL-SAMは、LLMファインチューニングの#1ランクを含む最先端のベースラインに匹敵するパフォーマンスを達成する。
一方、SL-SAMは、バニラSAMと比較して、バックプロパゲーションにおけるアクティブパラメータの比率を著しく低下させ(SL-SAMは、視覚、中等度、大言語モデルで47\%、22\%、21\%を活性化し、バニラSAMは、常に100\%を活性化する)、提案アルゴリズムの有効性を検証する。
関連論文リスト
- LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。
我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。
また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文 参考訳(メタデータ) (2025-02-26T21:30:34Z) - Avoiding spurious sharpness minimization broadens applicability of SAM [13.21265875272573]
シャープネス・アウェア・最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で非常に有望である。
SAMは自然言語処理(NLP)のようなドメインではパフォーマンスが悪く、計算予算の2倍であっても、パフォーマンスが劣化することがよくあります。
そこで我々は,関数の統計量を変更することでのみ曲率を正規化する関数SAMというアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-04T15:25:47Z) - μP$^2$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling [49.25546155981064]
シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。
この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。
対照的に、階層的なスケーリングを伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
論文 参考訳(メタデータ) (2024-10-31T16:32:04Z) - Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy [12.050160495730381]
SAM ( sharpness-aware generalization) は性能向上に驚くべき効果があることから注目されている。
本稿では, 安定SAM (SSAM) と呼ばれる単純な再正規化戦略を提案する。
我々の戦略は実装が容易で、SAMとその変種と統合するのに十分な柔軟性があり、ほとんど計算コストがかからない。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。