論文の概要: An Adaptive Volatility-based Learning Rate Scheduler
- arxiv url: http://arxiv.org/abs/2507.10575v1
- Date: Fri, 11 Jul 2025 05:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.736031
- Title: An Adaptive Volatility-based Learning Rate Scheduler
- Title(参考訳): 適応的ボラティリティに基づく学習率スケジューリング
- Authors: Kieran Chai Kai Ren,
- Abstract要約: VolSchedは、幾何学的ブラウン運動のようなプロセスにおけるボラティリティの概念にインスパイアされた、新しいLRスケジューラである。
長期精度と短期精度のボラティリティの比を計算することで、VolSchedはLRを高原から脱出させ、訓練を安定させるために減少させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective learning rate (LR) scheduling is crucial for training deep neural networks. However, popular pre-defined and adaptive schedulers can still lead to suboptimal generalization. This paper introduces VolSched, a novel adaptive LR scheduler inspired by the concept of volatility in stochastic processes like Geometric Brownian Motion to dynamically adjust the learning rate. By calculating the ratio between long-term and short-term accuracy volatility, VolSched increases the LR to escape plateaus and decreases it to stabilize training, allowing the model to explore the loss landscape more effectively. We evaluate VolSched on the CIFAR-100 dataset against a strong baseline using a standard augmentation pipeline. When paired with ResNet-18 and ResNet-34, our scheduler delivers consistent performance gains, improving top-1 accuracy by 1.4 and 1.3 percentage points respectively. Analysis of the loss curves reveals that VolSched promotes a longer exploration phase. A quantitative analysis of the Hessian shows that VolSched finds a final solution that is 38% flatter than the next-best baseline, allowing the model to obtain wider minima and hence better generalization performance.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングには,効率的な学習率(LR)スケジューリングが不可欠である。
しかし、一般的な事前定義された適応型スケジューラは、依然として準最適一般化につながる可能性がある。
本稿では,幾何学的ブラウン運動のような確率過程におけるボラティリティの概念にインスパイアされた,適応型LRスケジューラであるVolSchedを紹介し,学習速度を動的に調整する。
長期精度と短期精度のボラティリティの比を計算することにより、VolSchedはLRを高原から脱出させ、訓練を安定させ、損失景観をより効果的に探索できるようにする。
我々は,標準拡張パイプラインを用いて,CIFAR-100データセット上のVolSchedを強力なベースラインに対して評価した。
ResNet-18とResNet-34をペアにすると、スケジューラは一貫したパフォーマンス向上を実現し、トップ1の精度をそれぞれ1.4と1.3%向上させる。
損失曲線の解析により、VolSchedはより長い探査段階を促進することが明らかになった。
ヘシアンの定量的解析により、VolSchedは次の最良ベースラインよりも38%平坦な最終解を見つけ、モデルがより広い最小値を得ることができ、したがってより優れた一般化性能が得られることを示した。
関連論文リスト
- Adaptive Batch Size and Learning Rate Scheduler for Stochastic Gradient Descent Based on Minimization of Stochastic First-order Oracle Complexity [0.6906005491572401]
ミニバッチ勾配降下(SGD)の収束挙動はバッチサイズと学習速度設定に非常に敏感である。
最近の理論的研究により、第一次オラクルの複雑さを最小限に抑える臨界バッチサイズの存在が確認されている。
臨界バッチサイズに関する理論的な知見を生かしたSGDを高速化するための適応スケジューリング戦略が導入された。
論文 参考訳(メタデータ) (2025-08-07T12:00:53Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Stochastic Rounding for LLM Training: Theory and Practice [15.071158535119539]
ラウンドリング(SR)を利用して,低精度表現による数値誤差に対処する。
最大6.7Bパラメータの事前学習モデルによる実験結果から, SR戦略を用いたBF16が, 混合精度戦略(BF16, FP32)より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T22:08:08Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。