論文の概要: HyperbolicLR: Epoch insensitive learning rate scheduler
- arxiv url: http://arxiv.org/abs/2407.15200v3
- Date: Sat, 01 Feb 2025 08:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:02.509193
- Title: HyperbolicLR: Epoch insensitive learning rate scheduler
- Title(参考訳): HyperbolicLR:エポック非感受性学習率スケジューラ
- Authors: Tae-Geun Kim,
- Abstract要約: 本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。
双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより安定した学習曲線を維持できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study proposes two novel learning rate schedulers -- Hyperbolic Learning Rate Scheduler (HyperbolicLR) and Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR) -- to address the epoch sensitivity problem that often causes inconsistent learning curves in conventional methods. By leveraging the asymptotic behavior of hyperbolic curves, the proposed schedulers maintain more stable learning curves across varying epoch settings. Specifically, HyperbolicLR applies this property directly in the epoch-learning rate space, while ExpHyperbolicLR extends it to an exponential space. We first determine optimal hyperparameters for each scheduler on a small number of epochs, fix these hyperparameters, and then evaluate performance as the number of epochs increases. Experimental results on various deep learning tasks (e.g., image classification, time series forecasting, and operator learning) demonstrate that both HyperbolicLR and ExpHyperbolicLR achieve more consistent performance improvements than conventional schedulers as training duration grows. These findings suggest that our hyperbolic-based schedulers offer a more robust and efficient approach to deep network optimization, particularly in scenarios constrained by computational resources or time.
- Abstract(参考訳): 本研究では,従来の学習曲線に矛盾が生じやすいエポック感度問題に対処するため,双曲型学習率スケジューリング器 (HyperbolicLR) と指数型双曲型学習率スケジューリング器 (ExpHyperbolicLR) の2つの新しい学習速度スケジューラを提案する。
双曲曲線の漸近的挙動を利用して、提案したスケジューラは、様々なエポックな設定でより安定した学習曲線を維持する。
具体的には、HyperbolicLRはエポック学習率空間に直接この性質を適用し、ExpHyperbolicLRは指数空間に拡張する。
まず、少数のエポック上で各スケジューラに対して最適なハイパーパラメータを決定し、これらのハイパーパラメータを修正し、エポックの数が増えるにつれて性能を評価する。
様々なディープラーニングタスク(画像分類、時系列予測、演算子学習など)の実験結果から、トレーニング期間が長くなるにつれて、HyperbolicLRとExpHyperbolicLRの両方が従来のスケジューラよりも一貫したパフォーマンス向上を実現していることが示された。
これらの結果は、特に計算資源や時間に制約されたシナリオにおいて、我々の双曲型スケジューラがディープネットワーク最適化に対してより堅牢で効率的なアプローチを提供することを示唆している。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Estimating Post-Synaptic Effects for Online Training of Feed-Forward
SNNs [0.27016900604393124]
スパイクニューラルネットワーク(SNN)におけるオンライン学習の実現は、イベントベースのモデルを開発する上で重要なステップである。
本稿では, フィードフォワードSNNのトレーニングのためのOTPE(Online Training with Postsynaptic Estimates)を提案する。
本研究では, 時間的効果の新たな近似法を用いて, マルチ層ネットワークのスケーリング改善を示す。
論文 参考訳(メタデータ) (2023-11-07T16:53:39Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。