論文の概要: The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines
and Drifting Towards Wide Minima
- arxiv url: http://arxiv.org/abs/2210.01513v1
- Date: Tue, 4 Oct 2022 10:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:59:25.877589
- Title: The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines
and Drifting Towards Wide Minima
- Title(参考訳): シャープネス・アウェア・ミニミゼーションのダイナミクス--谷を越え、広いミニマに向かって漂流する
- Authors: Peter L. Bartlett, Philip M. Long and Olivier Bousquet
- Abstract要約: 我々は、ディープネットワークの勾配に基づく最適化手法であるシャープネス認識最小化について検討する。
SAM に凸2次対象を施すと、最も大きい曲率で最小方向の両辺の間で振動するサイクルに収束することを示す。
非二次的の場合、そのような振動は、ヘッセンのスペクトルノルムに基づいて、より小さなステップサイズで勾配降下を効果的に実行することを示す。
- 参考スコア(独自算出の注目度): 41.961056785108845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider Sharpness-Aware Minimization (SAM), a gradient-based optimization
method for deep networks that has exhibited performance improvements on image
and language prediction problems. We show that when SAM is applied with a
convex quadratic objective, for most random initializations it converges to a
cycle that oscillates between either side of the minimum in the direction with
the largest curvature, and we provide bounds on the rate of convergence.
In the non-quadratic case, we show that such oscillations effectively perform
gradient descent, with a smaller step-size, on the spectral norm of the
Hessian. In such cases, SAM's update may be regarded as a third derivative --
the derivative of the Hessian in the leading eigenvector direction -- that
encourages drift toward wider minima.
- Abstract(参考訳): シャープネス・アウェア・最小化(SAM)は,画像および言語予測問題の性能改善を図ったディープネットワークの勾配に基づく最適化手法である。
SAM を凸二次目的数で適用すると、ほとんどのランダム初期化に対して、最も大きな曲率を持つ方向の最小値の両辺間で振動するサイクルに収束し、収束率の有界性を与えることを示す。
非二次の場合、そのような振動はヘッシアンのスペクトルノルム上で、より小さなステップサイズの勾配降下を効果的に行う。
そのような場合、SAMの更新は、より広いミニマへのドリフトを促進する第3の微分(先頭の固有ベクトル方向におけるヘッセンの微分)と見なすことができる。
関連論文リスト
- Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context
Learning: Emergence, Convergence, and Optimality [59.2179429243182]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Linear Convergence of ISTA and FISTA [8.261388753972234]
疎表現を用いた線形逆問題の解法として,反復縮小保持アルゴリズム (ISTA) のクラスを再検討する。
滑らかな部分を凸とする以前の仮定は最小二乗モデルを弱める。
目的値と2乗近位下次ノルムの両方において、線形収束を合成最適化に一般化する。
論文 参考訳(メタデータ) (2022-12-13T02:02:50Z) - Implicit Sparse Regularization: The Impact of Depth and Early Stopping [35.4113861165802]
勾配降下をスパースモデルに収束させるためには,早期停止が不可欠であることを示す。
我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が極小最適スパース回復を達成することを示す。
論文 参考訳(メタデータ) (2021-08-12T07:43:29Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Potential Function-based Framework for Making the Gradients Small in
Convex and Min-Max Optimization [14.848525762485872]
勾配を小さくすることは、統一的かつ単純な収束論証を導いた基本的な最適化問題である。
本稿では,勾配を小さくするための標準手法の収束を研究するために,新しいポテンシャル関数ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T16:41:00Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。