論文の概要: GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization
- arxiv url: http://arxiv.org/abs/2210.06895v1
- Date: Thu, 13 Oct 2022 10:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:00:26.450731
- Title: GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization
- Title(参考訳): GA-SAM: 改良された一般化のための適応シャープネスの最小化
- Authors: Zhiyuan Zhang, Ruixuan Luo, Qi Su, Xu Sun
- Abstract要約: Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.53923556656022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Sharpness-Aware Minimization (SAM) algorithm has shown
state-of-the-art generalization abilities in vision tasks. It demonstrates that
flat minima tend to imply better generalization abilities. However, it has some
difficulty implying SAM to some natural language tasks, especially to models
with drastic gradient changes, such as RNNs. In this work, we analyze the
relation between the flatness of the local minimum and its generalization
ability from a novel and straightforward theoretical perspective. We propose
that the shift of the training and test distributions can be equivalently seen
as a virtual parameter corruption or perturbation, which can explain why flat
minima that are robust against parameter corruptions or perturbations have
better generalization performances. On its basis, we propose a
Gradient-Strength based Adaptive Sharpness-Aware Minimization (GA-SAM)
algorithm to help to learn algorithms find flat minima that generalize better.
Results in various language benchmarks validate the effectiveness of the
proposed GA-SAM algorithm on natural language tasks.
- Abstract(参考訳): 近年,Sharpness-Aware Minimization (SAM)アルゴリズムは視覚タスクにおける最先端の一般化能力を示している。
平坦なミニマは、より優れた一般化能力を示す傾向がある。
しかしながら、SAMを自然言語タスク、特にRNNのような劇的な勾配変化を持つモデルに含めることは困難である。
本研究では,局所最小値の平坦性とその一般化能力との関係を,新奇かつ直観的な理論的観点から解析する。
トレーニングとテスト分布のシフトは仮想パラメータの破損や摂動と等価であり,パラメータの破損や摂動に対して頑健な平坦なミニマがより一般化性能が高い理由を説明することができる。
そこで本研究では,グラデーション強度に基づく適応シャープネス認識最小化(ga-sam)アルゴリズムを提案する。
各種言語ベンチマークの結果は,提案したGA-SAMアルゴリズムが自然言語処理に与える影響を検証した。
関連論文リスト
- Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To
Achieve Better Generalization [29.90109733192208]
既存の理論では、一般的なアーキテクチャはトレーニング損失のより平らな最小化を好んでいる。
この研究は、この説明を批判的に検証する。
以上の結果から,シャープネスと一般化の関係は微妙にデータに依存することが示唆された。
論文 参考訳(メタデータ) (2023-07-20T16:34:58Z) - How to escape sharp minima with random perturbations [54.05440117388505]
平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:12:33Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文 参考訳(メタデータ) (2022-03-15T16:57:59Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning
of Deep Neural Networks [2.8292841621378844]
スケール不変の適応シャープネスの概念を導入し、対応する一般化境界を提案する。
本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。
各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。
論文 参考訳(メタデータ) (2021-02-23T10:26:54Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。