論文の概要: On the Interplay Between Stepsize Tuning and Progressive Sharpening
- arxiv url: http://arxiv.org/abs/2312.00209v3
- Date: Fri, 29 Dec 2023 23:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:02:10.589270
- Title: On the Interplay Between Stepsize Tuning and Progressive Sharpening
- Title(参考訳): ステップサイズチューニングとプログレッシブシャープニングの相互作用について
- Authors: Vincent Roulet, Atish Agarwala, Fabian Pedregosa
- Abstract要約: ステップサイズチューナー,Armijo linesearch,Polyak stepsizesを用いて,シャープネスがどのように進化するかを検討する。
決定論的条件下での古典的Armijo行探索の驚くほど貧弱な性能は、目的の鋭さを常に増す傾向によってよく説明できる。
- 参考スコア(独自算出の注目度): 17.19518634007177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent empirical work has revealed an intriguing property of deep learning
models by which the sharpness (largest eigenvalue of the Hessian) increases
throughout optimization until it stabilizes around a critical value at which
the optimizer operates at the edge of stability, given a fixed stepsize (Cohen
et al, 2022). We investigate empirically how the sharpness evolves when using
stepsize-tuners, the Armijo linesearch and Polyak stepsizes, that adapt the
stepsize along the iterations to local quantities such as, implicitly, the
sharpness itself. We find that the surprisingly poor performance of a classical
Armijo linesearch in the deterministic setting may be well explained by its
tendency to ever-increase the sharpness of the objective. On the other hand, we
observe that Polyak stepsizes operate generally at the edge of stability or
even slightly beyond, outperforming its Armijo and constant stepsizes
counterparts in the deterministic setting. We conclude with an analysis that
suggests unlocking stepsize tuners requires an understanding of the joint
dynamics of the step size and the sharpness.
- Abstract(参考訳): 近年の実証研究は、最適化器が安定の端で作動する臨界値を中心に安定するまで、シャープネス(ヘッセンの最大の固有値)が最適化を通して増加する深層学習モデルの興味深い性質を明らかにしている(Cohen et al, 2022)。
本研究は, ステップサイズチューナーを用いて, ステップサイズ・チューナーを用いて, ステップサイズを局所的な量(例えば, 暗黙的に, シャープネス自体)に適応させる手法を実証的に検討する。
決定論的設定における古典的アーミージョ線探索の驚くほど低い性能は、その目標の鋭さを常に増やそうとする傾向からよく説明できる。
一方,polyakステップ化は一般に安定性の辺で,あるいは少し先でも動作し,アルミージョよりも優れており,決定論的設定では対応するステップが一定である。
ステップサイズチューナーのアンロックには,ステップサイズとシャープネスのジョイントダイナミクスの理解が必要であることを示唆する分析で結論付けた。
関連論文リスト
- Stepping on the Edge: Curvature Aware Learning Rate Tuners [24.95412499942206]
曲率情報はロス・ヘッセンの最大の固有値であり、鋭さとして知られている。
最近の研究は、曲率情報が訓練中に複雑な力学を経ることを示した。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
論文 参考訳(メタデータ) (2024-07-08T17:56:00Z) - High dimensional analysis reveals conservative sharpening and a stochastic edge of stability [21.12433806766051]
トレーニング損失Hessianの大きな固有値のダイナミクスは,モデル間およびバッチ全体において極めて堅牢な特徴を持っていることを示す。
しばしば、大きな固有値が増加するプログレッシブ・シャープニングの初期段階があり、続いて安定性の端として知られる予測可能な値での安定化が続く。
論文 参考訳(メタデータ) (2024-04-30T04:54:15Z) - A Theoretical and Empirical Study on the Convergence of Adam with an "Exact" Constant Step Size in Non-Convex Settings [1.246305060872372]
ニューラルネットワークトレーニングでは、RMSとAdamは依然として広く好まれているアルゴリズムである。
理論的には、アダムのステップサイズに対する定数収束を解析する。
いくつかの過去の蓄積にもかかわらず、Adamにおける収束の鍵となる要因は、非ステップのサイズであることを示す。
論文 参考訳(メタデータ) (2023-09-15T11:47:14Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。