論文の概要: Stepping on the Edge: Curvature Aware Learning Rate Tuners
- arxiv url: http://arxiv.org/abs/2407.06183v1
- Date: Mon, 8 Jul 2024 17:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.021318
- Title: Stepping on the Edge: Curvature Aware Learning Rate Tuners
- Title(参考訳): エッジをステッピングする - 学習速度チューニングの曲率認識
- Authors: Vincent Roulet, Atish Agarwala, Jean-Bastien Grill, Grzegorz Swirszcz, Mathieu Blondel, Fabian Pedregosa,
- Abstract要約: 曲率情報はロス・ヘッセンの最大の固有値であり、鋭さとして知られている。
最近の研究は、曲率情報が訓練中に複雑な力学を経ることを示した。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
- 参考スコア(独自算出の注目度): 24.95412499942206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curvature information -- particularly, the largest eigenvalue of the loss Hessian, known as the sharpness -- often forms the basis for learning rate tuners. However, recent work has shown that the curvature information undergoes complex dynamics during training, going from a phase of increasing sharpness to eventual stabilization. We analyze the closed-loop feedback effect between learning rate tuning and curvature. We find that classical learning rate tuners may yield greater one-step loss reduction, yet they ultimately underperform in the long term when compared to constant learning rates in the full batch regime. These models break the stabilization of the sharpness, which we explain using a simplified model of the joint dynamics of the learning rate and the curvature. To further investigate these effects, we introduce a new learning rate tuning method, Curvature Dynamics Aware Tuning (CDAT), which prioritizes long term curvature stabilization over instantaneous progress on the objective. In the full batch regime, CDAT shows behavior akin to prefixed warm-up schedules on deep learning objectives, outperforming tuned constant learning rates. In the mini batch regime, we observe that stochasticity introduces confounding effects that explain the previous success of some learning rate tuners at appropriate batch sizes. Our findings highlight the critical role of understanding the joint dynamics of the learning rate and curvature, beyond greedy minimization, to diagnose failures and design effective adaptive learning rate tuners.
- Abstract(参考訳): 曲率情報(特に、鋭さとして知られるロス・ヘッセンの最大の固有値)は、学習率チューナーの基礎となることが多い。
しかし、最近の研究により、曲率情報は、シャープネスを増す段階から最終的な安定化段階まで、訓練中に複雑な力学を経ることが示されている。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
古典的な学習速度チューナーは1ステップの損失を減少させるが、最終的にはバッチ全体の定常的な学習率と比較して、長期的には性能が低下する。
これらのモデルはシャープネスの安定化を破り、学習速度と曲率のジョイントダイナミクスの単純化されたモデルを用いて説明する。
これらの効果をさらに調査するため,学習速度チューニング手法であるCurvature Dynamics Aware Tuning (CDAT)を導入し,目標の即時進行よりも長期の曲率安定化を優先する。
フルバッチシステムでは、CDATは、学習目標に対するプレフィックス付きウォームアップスケジュールに似た振る舞いを示し、チューニングされた一定の学習率を上回っている。
ミニバッチシステムでは、確率性は、いくつかの学習率チューナーが適切なバッチサイズで以前成功していたことを説明できる共起効果をもたらすことが観察される。
本研究は,学習率と曲率の連関ダイナミクスを理解する上で,失敗の診断や適応学習率チューナーの設計に重要な役割を担っている。
関連論文リスト
- SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Acceleration via Fractal Learning Rate Schedules [37.878672787331105]
学習率のスケジュールは理解が困難であり、チューニングに費用がかかることが知られている。
我々は,数値解析文献からの反復的アルゴリズムを,バニラ勾配降下を加速するためのチェビシェフ学習率スケジュールと再解釈する。
深層学習における「安定性の最先端」の理解に挑戦するための実験と議論を行う。
論文 参考訳(メタデータ) (2021-03-01T22:52:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。