Fugu-MT 論文翻訳(概要): The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines and Drifting Towards Wide Minima

論文の概要: The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines and Drifting Towards Wide Minima

arxiv url: http://arxiv.org/abs/2210.01513v1
Date: Tue, 4 Oct 2022 10:34:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 13:59:25.877589
Title: The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines and Drifting Towards Wide Minima
Title（参考訳）: シャープネス・アウェア・ミニミゼーションのダイナミクス--谷を越え、広いミニマに向かって漂流する
Authors: Peter L. Bartlett, Philip M. Long and Olivier Bousquet
Abstract要約: 我々は、ディープネットワークの勾配に基づく最適化手法であるシャープネス認識最小化について検討する。 SAM に凸2次対象を施すと、最も大きい曲率で最小方向の両辺の間で振動するサイクルに収束することを示す。非二次的の場合、そのような振動は、ヘッセンのスペクトルノルムに基づいて、より小さなステップサイズで勾配降下を効果的に実行することを示す。
参考スコア（独自算出の注目度）: 41.961056785108845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider Sharpness-Aware Minimization (SAM), a gradient-based optimization method for deep networks that has exhibited performance improvements on image and language prediction problems. We show that when SAM is applied with a convex quadratic objective, for most random initializations it converges to a cycle that oscillates between either side of the minimum in the direction with the largest curvature, and we provide bounds on the rate of convergence. In the non-quadratic case, we show that such oscillations effectively perform gradient descent, with a smaller step-size, on the spectral norm of the Hessian. In such cases, SAM's update may be regarded as a third derivative -- the derivative of the Hessian in the leading eigenvector direction -- that encourages drift toward wider minima.
Abstract（参考訳）: シャープネス・アウェア・最小化(SAM)は,画像および言語予測問題の性能改善を図ったディープネットワークの勾配に基づく最適化手法である。 SAM を凸二次目的数で適用すると、ほとんどのランダム初期化に対して、最も大きな曲率を持つ方向の最小値の両辺間で振動するサイクルに収束し、収束率の有界性を与えることを示す。非二次の場合、そのような振動はヘッシアンのスペクトルノルム上で、より小さなステップサイズの勾配降下を効果的に行う。そのような場合、SAMの更新は、より広いミニマへのドリフトを促進する第3の微分(先頭の固有ベクトル方向におけるヘッセンの微分)と見なすことができる。

関連論文リスト

Training Diagonal Linear Networks with Stochastic Sharpness-Aware Minimization [7.032245866317619]
線形回帰課題における対角線ネットワークのランドスケープとトレーニングのダイナミクスを解析する。基礎となる景観に対する作用とトレーニングのダイナミクスと損失の鋭さを関連づけたいくつかの結果が証明された。
論文参考訳（メタデータ） (2025-03-14T21:45:12Z)
Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale [33.38543010618118]
Zeroth-order (ZO) 最適化は、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。高次元性が主要なボトルネックであることを示し、サブスペースの摂動が勾配ノイズを減らし収束を加速させる方法について説明するために、テキストサブスペースアライメントの概念を導入する。本稿では,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
論文参考訳（メタデータ） (2025-01-31T12:46:04Z)
Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文参考訳（メタデータ） (2024-06-28T02:56:22Z)
Sharp detection of low-dimensional structure in probability measures via dimensional logarithmic Sobolev inequalities [0.5592394503914488]
本稿では、所定の基準測度$mu$の摂動として、目標測度$pi$を同定し、近似する手法を提案する。我々の主な貢献は、多元対数ソボレフ不等式(LSI)と、このアンザッツとの近似との接続を明らかにすることである。
論文参考訳（メタデータ） (2024-06-18T20:02:44Z)
A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文参考訳（メタデータ） (2024-06-06T01:52:09Z)
Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文参考訳（メタデータ） (2024-03-06T22:24:05Z)
Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文参考訳（メタデータ） (2024-02-29T18:43:52Z)
Implicit regularization in AI meets generalized hardness of approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。これを近似の一般化硬度における相転移現象と関連付ける。結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文参考訳（メタデータ） (2023-07-13T13:27:51Z)
Implicit Sparse Regularization: The Impact of Depth and Early Stopping [35.4113861165802]
勾配降下をスパースモデルに収束させるためには,早期停止が不可欠であることを示す。我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が極小最適スパース回復を達成することを示す。
論文参考訳（メタデータ） (2021-08-12T07:43:29Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Potential Function-based Framework for Making the Gradients Small in Convex and Min-Max Optimization [14.848525762485872]
勾配を小さくすることは、統一的かつ単純な収束論証を導いた基本的な最適化問題である。本稿では,勾配を小さくするための標準手法の収束を研究するために,新しいポテンシャル関数ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-28T16:41:00Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)
Effective Dimension Adaptive Sketching Methods for Faster Regularized Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文参考訳（メタデータ） (2020-06-10T15:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。