論文の概要: eagle: early approximated gradient based learning rate estimator
- arxiv url: http://arxiv.org/abs/2502.01036v1
- Date: Mon, 03 Feb 2025 04:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:04.856749
- Title: eagle: early approximated gradient based learning rate estimator
- Title(参考訳): イーグル:早期近似勾配に基づく学習率推定器
- Authors: Takumi Fujimoto, Hiroaki Nishi,
- Abstract要約: 本稿では,トレーニングの初期段階における損失収束を高速化する新しい最適化手法を提案する。
更新アルゴリズムは、パラメータの変化を計算し、連続的なトレーニングステップ間で最適なパラメータを推定する。
本稿では,AdamとEagleの更新ルールを選択する適応スイッチング機構を導入し,トレーニング安定性を向上させる。
- 参考スコア(独自算出の注目度): 0.06906005491572399
- License:
- Abstract: We propose EAGLE update rule, a novel optimization method that accelerates loss convergence during the early stages of training by leveraging both current and previous step parameter and gradient values. The update algorithm estimates optimal parameters by computing the changes in parameters and gradients between consecutive training steps and leveraging the local curvature of the loss landscape derived from these changes. However, this update rule has potential instability, and to address that, we introduce an adaptive switching mechanism that dynamically selects between Adam and EAGLE update rules to enhance training stability. Experiments on standard benchmark datasets demonstrate that EAGLE optimizer, which combines this novel update rule with the switching mechanism achieves rapid training loss convergence with fewer epochs, compared to conventional optimization methods.
- Abstract(参考訳): EAGLE更新ルールは、現在のステップパラメータと前のステップパラメータと勾配値の両方を活用することで、トレーニングの初期段階における損失収束を加速する新しい最適化手法である。
更新アルゴリズムは、連続的なトレーニングステップ間のパラメータと勾配の変化を計算し、これらの変化から得られた損失景観の局所曲率を活用することにより、最適パラメータを推定する。
しかし、この更新規則には潜在的な不安定性があり、それに対応するために、AdamとEAGLEの更新規則を動的に選択し、トレーニング安定性を向上させる適応切換機構を導入する。
標準ベンチマークデータセットの実験では、この新しい更新ルールとスイッチング機構を組み合わせたERGLEオプティマイザが、従来の最適化手法と比較して、より少ないエポックで高速なトレーニング損失収束を実現することが示されている。
関連論文リスト
- Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Improved Binary Forward Exploration: Learning Rate Scheduling Method for
Stochastic Optimization [3.541406632811038]
BFE(Binary Forward Exploration)と呼ばれる,学習速度の自動スケジューリングによる勾配に基づく新しい最適化手法が最近提案されている。
本稿では,提案手法の効率性とロバスト性を最適化するため,改良されたアルゴリズムについて検討する。
本手法の目的は,他者を倒すことではなく,勾配降下過程を最適化するための異なる視点を提供することである。
論文 参考訳(メタデータ) (2022-07-09T05:28:44Z) - On Enforcing Better Conditioned Meta-Learning for Rapid Few-Shot
Adaptation [31.471917430653626]
我々は、最適化問題を非線形の最小二乗形式に再キャストすることで、メタラーニングモデルに対して$textitwell-conditioned$パラメータ空間を強制する原則的な方法が提供されることを実証する。
評価の結果,提案手法は初期適応段階において,制約のない手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-15T02:44:45Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。