論文の概要: HyperbolicLR: Epoch insensitive learning rate scheduler
- arxiv url: http://arxiv.org/abs/2407.15200v3
- Date: Sat, 01 Feb 2025 08:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:02.509193
- Title: HyperbolicLR: Epoch insensitive learning rate scheduler
- Title(参考訳): HyperbolicLR:エポック非感受性学習率スケジューラ
- Authors: Tae-Geun Kim,
- Abstract要約: 本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。
双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより安定した学習曲線を維持できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study proposes two novel learning rate schedulers -- Hyperbolic Learning Rate Scheduler (HyperbolicLR) and Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR) -- to address the epoch sensitivity problem that often causes inconsistent learning curves in conventional methods. By leveraging the asymptotic behavior of hyperbolic curves, the proposed schedulers maintain more stable learning curves across varying epoch settings. Specifically, HyperbolicLR applies this property directly in the epoch-learning rate space, while ExpHyperbolicLR extends it to an exponential space. We first determine optimal hyperparameters for each scheduler on a small number of epochs, fix these hyperparameters, and then evaluate performance as the number of epochs increases. Experimental results on various deep learning tasks (e.g., image classification, time series forecasting, and operator learning) demonstrate that both HyperbolicLR and ExpHyperbolicLR achieve more consistent performance improvements than conventional schedulers as training duration grows. These findings suggest that our hyperbolic-based schedulers offer a more robust and efficient approach to deep network optimization, particularly in scenarios constrained by computational resources or time.
- Abstract(参考訳): 本研究では,従来の学習曲線に矛盾が生じやすいエポック感度問題に対処するため,双曲型学習率スケジューリング器 (HyperbolicLR) と指数型双曲型学習率スケジューリング器 (ExpHyperbolicLR) の2つの新しい学習速度スケジューラを提案する。
双曲曲線の漸近的挙動を利用して、提案したスケジューラは、様々なエポックな設定でより安定した学習曲線を維持する。
具体的には、HyperbolicLRはエポック学習率空間に直接この性質を適用し、ExpHyperbolicLRは指数空間に拡張する。
まず、少数のエポック上で各スケジューラに対して最適なハイパーパラメータを決定し、これらのハイパーパラメータを修正し、エポックの数が増えるにつれて性能を評価する。
様々なディープラーニングタスク(画像分類、時系列予測、演算子学習など)の実験結果から、トレーニング期間が長くなるにつれて、HyperbolicLRとExpHyperbolicLRの両方が従来のスケジューラよりも一貫したパフォーマンス向上を実現していることが示された。
これらの結果は、特に計算資源や時間に制約されたシナリオにおいて、我々の双曲型スケジューラがディープネットワーク最適化に対してより堅牢で効率的なアプローチを提供することを示唆している。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Robust Hyperbolic Learning with Curvature-Aware Optimization [7.89323764547292]
現在の双曲型学習アプローチは、過度に適合し、計算コストが高く、不安定になりがちである。
本稿では,双曲的埋め込みを制限し,近似誤差を低減するために,新しい微調整可能な双曲的スケーリング手法を提案する。
提案手法は,コンピュータビジョン,脳波分類,階層的メトリック学習タスクにおける一貫した改善を示す。
論文 参考訳(メタデータ) (2024-05-22T20:30:14Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate [36.83448475700536]
最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。
本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
論文 参考訳(メタデータ) (2020-10-06T17:58:29Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。