論文の概要: Online Learning-guided Learning Rate Adaptation via Gradient Alignment
- arxiv url: http://arxiv.org/abs/2506.08419v1
- Date: Tue, 10 Jun 2025 03:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.368172
- Title: Online Learning-guided Learning Rate Adaptation via Gradient Alignment
- Title(参考訳): グラディエントアライメントによるオンライン学習誘導型学習率適応
- Authors: Ruichen Jiang, Ali Kavis, Aryan Mokhtari,
- Abstract要約: 大規模ディープラーニングモデルの性能は、学習率の微調整に大きく依存する。
本稿では, GALA (Gradient Alignment-based Adaptation) と呼ばれるフレームワークを提案する。
Follow-the-Regularized-Leaderのようなオンライン学習アルゴリズムと組み合わせることで、フレキシブルで適応的な学習スケジュールを生成する。
- 参考スコア(独自算出の注目度): 25.688764889273237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of an optimizer on large-scale deep learning models depends critically on fine-tuning the learning rate, often requiring an extensive grid search over base learning rates, schedules, and other hyperparameters. In this paper, we propose a principled framework called GALA (Gradient Alignment-based Learning rate Adaptation), which dynamically adjusts the learning rate by tracking the alignment between consecutive gradients and using a local curvature estimate. Guided by the convergence analysis, we formulate the problem of selecting the learning rate as a one-dimensional online learning problem. When paired with an online learning algorithm such as Follow-the-Regularized-Leader, our method produces a flexible, adaptive learning rate schedule that tends to increase when consecutive gradients are aligned and decrease otherwise. We establish a data-adaptive convergence rate for normalized SGD equipped with GALA in the smooth, nonconvex setting. Empirically, common optimizers such as SGD and Adam, when augmented with GALA, demonstrate robust performance across a wide range of initial learning rates and perform competitively without the need for tuning.
- Abstract(参考訳): 大規模ディープラーニングモデルにおけるオプティマイザの性能は、学習率の微調整に大きく依存する。
本稿では,GALA(Gradient Alignment-based Learning rate Adaptation)と呼ばれるフレームワークを提案する。
収束分析により,学習率を1次元オンライン学習問題として選択する問題を定式化する。
Follow-the-Regularized-Leaderのようなオンライン学習アルゴリズムと組み合わせることで、連続的な勾配が整列してそれ以外は減少する傾向にあるフレキシブルで適応的な学習率スケジュールを生成する。
GALAを具備した正規化SGDのスムーズな非凸条件下でのデータ適応収束率を確立する。
実証的に、SGDやAdamのような一般的なオプティマイザは、GALAで拡張すると、幅広い初期学習率で堅牢なパフォーマンスを示し、チューニングを必要とせずに競争的に機能する。
関連論文リスト
- Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.05410015124021]
本稿では,SGD法であるAutoSGDを紹介する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文 参考訳(メタデータ) (2025-05-27T18:25:21Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-06-20T14:07:39Z) - The High Line: Exact Risk and Learning Rate Curves of Stochastic Adaptive Learning Rate Algorithms [8.681909776958184]
本研究では,高次元最適化問題の大規模なクラスにおいて,学習速度と学習速度のダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクと学習率曲線の正確な表現を与える。
最小二乗問題に対する最適正則線探索とAdaGrad-Normの2つの適応学習率について詳細に検討する。
論文 参考訳(メタデータ) (2024-05-30T00:27:52Z) - On discretisation drift and smoothness regularisation in neural network
training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文 参考訳(メタデータ) (2023-10-21T15:21:36Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。