論文の概要: Towards Simple and Provable Parameter-Free Adaptive Gradient Methods
- arxiv url: http://arxiv.org/abs/2412.19444v1
- Date: Fri, 27 Dec 2024 04:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:13.606552
- Title: Towards Simple and Provable Parameter-Free Adaptive Gradient Methods
- Title(参考訳): 単純かつ予測可能なパラメータフリー適応勾配法を目指して
- Authors: Yuanzhe Tao, Huizhuo Yuan, Xun Zhou, Yuan Cao, Quanquan Gu,
- Abstract要約: 本稿では,AdaGrad++とAdam++について述べる。
我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
- 参考スコア(独自算出の注目度): 56.060918447252625
- License:
- Abstract: Optimization algorithms such as AdaGrad and Adam have significantly advanced the training of deep models by dynamically adjusting the learning rate during the optimization process. However, adhoc tuning of learning rates poses a challenge, leading to inefficiencies in practice. To address this issue, recent research has focused on developing "learning-rate-free" or "parameter-free" algorithms that operate effectively without the need for learning rate tuning. Despite these efforts, existing parameter-free variants of AdaGrad and Adam tend to be overly complex and/or lack formal convergence guarantees. In this paper, we present AdaGrad++ and Adam++, novel and simple parameter-free variants of AdaGrad and Adam with convergence guarantees. We prove that AdaGrad++ achieves comparable convergence rates to AdaGrad in convex optimization without predefined learning rate assumptions. Similarly, Adam++ matches the convergence rate of Adam without relying on any conditions on the learning rates. Experimental results across various deep learning tasks validate the competitive performance of AdaGrad++ and Adam++.
- Abstract(参考訳): AdaGradやAdamのような最適化アルゴリズムは、最適化プロセス中に学習率を動的に調整することで、深層モデルのトレーニングを大幅に進歩させた。
しかし、学習率のアドホックなチューニングが課題となり、実際は非効率になる。
この問題に対処するために、最近の研究では、学習率チューニングを必要とせずに効果的に動作する「学習速度なし」または「パラメータなし」のアルゴリズムの開発に焦点が当てられている。
これらの努力にもかかわらず、既存のパラメータフリーな AdaGrad と Adam の変種は、過度に複雑であり、公式収束保証がない傾向にある。
本稿では,AdaGrad++とAdam++について述べる。
我々は,AdaGrad++が事前定義された学習率の仮定なしで,凸最適化においてAdaGradに匹敵する収束率を達成することを証明した。
同様に、Adam++はAdamの収束率と一致し、学習率の条件に依存しない。
さまざまなディープラーニングタスクにわたる実験結果は、AdaGrad++とAdam++の競合性能を検証する。
関連論文リスト
- Gradient Clipping Improves AdaGrad when the Noise Is Heavy-Tailed [83.8485684139678]
AdaGradやAdamのような適応的なステップを持つメソッドは、現代のディープラーニングモデルのトレーニングに不可欠です。
AdaGradはノイズが狭い場合, 高い確率収束性を有することを示す。
我々は、Clip-RAD RedaGrad with Delayと呼ばれるAdaGradの新バージョンを提案する。
論文 参考訳(メタデータ) (2024-06-06T18:49:10Z) - Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad [16.249992982986956]
本稿では,複雑な機械学習タスクに一貫した適応アルゴリズムKATEを提案する。
我々はKATEと他の最先端適応アルゴリズムAdam AdaGradを比較し、異なる問題を持つ数値実験を行った。
論文 参考訳(メタデータ) (2024-03-05T04:35:59Z) - StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文 参考訳(メタデータ) (2021-05-31T20:30:25Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。