Fugu-MT 論文翻訳(概要): HyperbolicLR: Epoch insensitive learning rate scheduler

論文の概要: HyperbolicLR: Epoch insensitive learning rate scheduler

arxiv url: http://arxiv.org/abs/2407.15200v2
Date: Tue, 30 Jul 2024 01:26:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 19:27:58.454878
Title: HyperbolicLR: Epoch insensitive learning rate scheduler
Title（参考訳）: HyperbolicLR:エポック非感受性学習率スケジューラ
Authors: Tae-Geun Kim,
Abstract要約: 本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより一貫した学習曲線を維持できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study proposes two novel learning rate schedulers: the Hyperbolic Learning Rate Scheduler (HyperbolicLR) and the Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR). These schedulers attempt to address the inconsistent learning curves often observed in conventional schedulers when adjusting the number of epochs. By leveraging the asymptotic behavior of hyperbolic curves, the proposed schedulers maintain more consistent learning curves across varying epoch settings. The HyperbolicLR algorithm directly applies this property to the epoch-learning rate space, while the ExpHyperbolicLR maps this concept onto the exponential space of epochs and learning rates. To evaluate the performance of these schedulers, first we found the optimal hyperparameters for each scheduler on a small number of epochs, fixed these values, and compared their performance as the number of epochs increased. Our experimental results on various deep learning tasks and architectures demonstrate that both HyperbolicLR and ExpHyperbolicLR maintain more consistent performance improvements compared to conventional schedulers as the number of epochs increases. These findings suggest that our hyperbolic-based learning rate schedulers offer a more robust and efficient approach to training deep neural networks, especially in scenarios where computational resources or time constraints limit extensive hyperparameter searches.
Abstract（参考訳）: 本研究では,Hyperbolic Learning Rate Scheduler (HyperbolicLR) と Exponential Hyperbolic Learning Rate Scheduler (ExpHyperbolicLR) の2つの新しい学習率スケジューラを提案する。これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。双曲曲線の漸近的挙動を活用することにより、提案したスケジューラは、エポックな設定でより一貫した学習曲線を維持することができる。 HyperbolicLRアルゴリズムは、この特性をエポック学習率空間に直接適用し、ExpHyperbolicLRはエポック学習率と学習率の指数空間にこの概念をマッピングする。これらのスケジューラの性能を評価するために,まず,少数のエポック上で各スケジューラに対して最適なハイパーパラメータを求め,これらの値を固定し,エポックの数が増えるにつれてそれらの性能を比較した。各種ディープラーニングタスクとアーキテクチャに関する実験結果から,HyperbolicLRとExpHyperbolicLRは,エポック数の増加に伴い,従来のスケジューラよりも一貫した性能向上を維持していることが示された。これらの結果は、特に計算資源や時間制約が広範なハイパーパラメータ検索を制限するシナリオにおいて、私たちの双曲型学習率スケジューラがディープニューラルネットワークのトレーニングにより堅牢で効率的なアプローチを提供することを示唆している。

関連論文リスト

TANTE: Time-Adaptive Operator Learning via Neural Taylor Expansion [5.282722051530654]
適応的なステップサイズで連続時間予測を生成する演算子学習フレームワークを提案する。 TANTEはテイラー展開を現在の状態に実行することで将来の状態を予測し、ニューラルネットワークは高次の時間微分と局所収束半径の両方を学ぶ。これにより、ソリューションのローカルな振る舞いに基づいて、モデルがロールアウトを動的に調整できる。
論文参考訳（メタデータ） (2025-02-12T17:09:13Z)
Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-09-07T09:37:19Z)
Robust Hyperbolic Learning with Curvature-Aware Optimization [7.89323764547292]
現在の双曲型学習アプローチは、過度に適合し、計算コストが高く、不安定になりがちである。本稿では,双曲的埋め込みを制限し,近似誤差を低減するために,新しい微調整可能な双曲的スケーリング手法を提案する。提案手法は,コンピュータビジョン,脳波分類,階層的メトリック学習タスクにおける一貫した改善を示す。
論文参考訳（メタデータ） (2024-05-22T20:30:14Z)
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文参考訳（メタデータ） (2023-12-01T05:38:17Z)
Estimating Post-Synaptic Effects for Online Training of Feed-Forward SNNs [0.27016900604393124]
スパイクニューラルネットワーク(SNN)におけるオンライン学習の実現は、イベントベースのモデルを開発する上で重要なステップである。本稿では, フィードフォワードSNNのトレーニングのためのOTPE(Online Training with Postsynaptic Estimates)を提案する。本研究では, 時間的効果の新たな近似法を用いて, マルチ層ネットワークのスケーリング改善を示す。
論文参考訳（メタデータ） (2023-11-07T16:53:39Z)
Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文参考訳（メタデータ） (2022-10-28T20:41:48Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。いくつかの実験でArbiterの有効性を実証した。
論文参考訳（メタデータ） (2022-05-17T11:01:14Z)
Critical Parameters for Scalable Distributed Learning with Large Batches and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文参考訳（メタデータ） (2021-03-03T12:08:23Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate [36.83448475700536]
最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
論文参考訳（メタデータ） (2020-10-06T17:58:29Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文参考訳（メタデータ） (2020-04-15T09:52:37Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。