論文の概要: Lookbehind Optimizer: k steps back, 1 step forward
- arxiv url: http://arxiv.org/abs/2307.16704v1
- Date: Mon, 31 Jul 2023 14:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:58:52.557696
- Title: Lookbehind Optimizer: k steps back, 1 step forward
- Title(参考訳): lookbehindオプティマイザ:kステップ後退、1ステップ前進
- Authors: Gon\c{c}alo Mordido, Pranshu Malviya, Aristide Baratin, Sarath Chandar
- Abstract要約: Lookaheadは、降下方向を"前方"に導く一連の高速ウェイトを持つことで、ディープニューラルネットワークのトレーニング安定性を向上させる。
我々は、このアイデアをシャープネス認識最小化(SAM)と組み合わせて、多段階の変動を安定化し、損失シャープ性トレードオフを改善する。
終生の学習環境における破滅的忘れ込みに対する耐性が向上し, 騒音に対する強靭性が向上した。
- 参考スコア(独自算出の注目度): 12.168126315261116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Lookahead optimizer improves the training stability of deep neural
networks by having a set of fast weights that "look ahead" to guide the descent
direction. Here, we combine this idea with sharpness-aware minimization (SAM)
to stabilize its multi-step variant and improve the loss-sharpness trade-off.
We propose Lookbehind, which computes $k$ gradient ascent steps ("looking
behind") at each iteration and combine the gradients to bias the descent step
toward flatter minima. We apply Lookbehind on top of two popular
sharpness-aware training methods -- SAM and adaptive SAM (ASAM) -- and show
that our approach leads to a myriad of benefits across a variety of tasks and
training regimes. Particularly, we show increased generalization performance,
greater robustness against noisy weights, and higher tolerance to catastrophic
forgetting in lifelong learning settings.
- Abstract(参考訳): Lookaheadオプティマイザは、降下方向を"前方"に導く一連の高速ウェイトを持つことで、ディープニューラルネットワークのトレーニング安定性を向上させる。
ここでは、このアイデアをシャープネス認識最小化(SAM)と組み合わせて、多段階の変動を安定化し、ロスシャープネストレードオフを改善する。
我々は,各イテレーションで$k$勾配上昇ステップ(後ろを見て)を計算し,勾配を組み合わせ,降下ステップをフラットミニマに向けてバイアスするlookbehindを提案する。
SAM(Adaptive SAM)とASAM(Adaptive SAM)という2つの一般的なシャープネス対応トレーニングメソッドの上にLookbehindを適用することで、当社のアプローチがさまざまなタスクやトレーニング体制に無数のメリットをもたらすことを示す。
特に, 一般化性能の向上, 雑音重みに対する頑健性の向上, 終生の学習環境における破滅的な忘れやすさの高まりを示す。
関連論文リスト
- Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - Careful with that Scalpel: Improving Gradient Surgery with an EMA [32.73961859864032]
簡単な和以上の勾配をブレンドすることで、パフォーマンスを向上させる方法を示す。
我々は,我々の手法であるBloopが,NLPおよび視覚実験において,より優れた性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-02-05T13:37:00Z) - Stabilizing Sharpness-aware Minimization Through A Simple
Renormalization Strategy [12.927965934262847]
シャープネス・アウェア(SAM)を用いたニューラルネットワークのトレーニングは非常に不安定である。
そこで我々は、StableSAMと呼ばれる単純な再正規化戦略を提案し、従順勾配のノルムが正確な勾配のノルムを維持する。
本稿は,StableSAMが学習率のこの仕組みをどのように拡張し,SAMを微調整で一貫した性能を実現できるかを示す。
論文 参考訳(メタデータ) (2024-01-14T10:53:36Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Enhancing Sharpness-Aware Optimization Through Variance Suppression [48.908966673827734]
この研究は損失関数の幾何学を取り入れ、そこでは「平坦なミニマ」の近傍が一般化能力を高める。
地区内の敵対的な摂動パラメータによる最大損失を最小化することで「平坦な谷」を求める。
損失関数のシャープさを考慮に入れることが重要であるが、そのような「過剰にフレンドリーな敵」は極端に一般化のレベルを縮めることができる。
論文 参考訳(メタデータ) (2023-09-27T13:18:23Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Exploring the Effect of Multi-step Ascent in Sharpness-Aware
Minimization [9.303088864959829]
シャープネス・アウェア・ミニマライゼーション(SAM)はフラット・ミニマを求めることで最先端の性能を示した。
本研究では,SAM最適化における昇降段数の影響を同定し,単段昇降段SAMと多段昇降段SAMが異なる損失景観を示すことを示した。
論文 参考訳(メタデータ) (2023-01-27T06:16:31Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文 参考訳(メタデータ) (2022-03-15T16:57:59Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。