論文の概要: Interpreting Adaptive Gradient Methods by Parameter Scaling for
Learning-Rate-Free Optimization
- arxiv url: http://arxiv.org/abs/2401.03240v1
- Date: Sat, 6 Jan 2024 15:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:35:10.218858
- Title: Interpreting Adaptive Gradient Methods by Parameter Scaling for
Learning-Rate-Free Optimization
- Title(参考訳): 学習速度フリー最適化のためのパラメータスケーリングによる適応勾配法解釈
- Authors: Min-Kook Suh and Seung-Woo Seo
- Abstract要約: 深層ニューラルネットワークの学習に使用される適応的勾配法について,学習率を推定する上での課題に対処する。
学習速度のないいくつかのアプローチが提案されているが、それらは典型的には最も急降下に適したものである。
本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈する。
- 参考スコア(独自算出の注目度): 14.009179786857802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of estimating the learning rate for adaptive
gradient methods used in training deep neural networks. While several
learning-rate-free approaches have been proposed, they are typically tailored
for steepest descent. However, although steepest descent methods offer an
intuitive approach to finding minima, many deep learning applications require
adaptive gradient methods to achieve faster convergence. In this paper, we
interpret adaptive gradient methods as steepest descent applied on
parameter-scaled networks, proposing learning-rate-free adaptive gradient
methods. Experimental results verify the effectiveness of this approach,
demonstrating comparable performance to hand-tuned learning rates across
various scenarios. This work extends the applicability of learning-rate-free
methods, enhancing training with adaptive gradient methods.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングに使用される適応的勾配法における学習率推定の課題に対処する。
いくつかの学習率フリーアプローチが提案されているが、通常は最も急な降下用に調整されている。
しかしながら、最急降下法では最小値を見つけるための直感的なアプローチを提供するが、多くのディープラーニングアプリケーションはより高速な収束を達成するために適応勾配法を必要とする。
本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈し,学習速度のない適応勾配法を提案する。
提案手法の有効性を検証し,様々なシナリオにおけるハンドチューニング学習率と同等の性能を示す。
本研究は,学習速度自由法の適用可能性を拡張し,適応勾配法を用いてトレーニングを強化する。
関連論文リスト
- AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [19.154662931738827]
適応型サンプリング法から導いた適応型サイズ戦略について検討する。
AdaNormは、最初の非順序定常点を見つけるために$mathscrO (1/K)$の速度で高い確率で収束する。
AdaGradはまた、適応バッチサイズ戦略の勾配変化と統合した場合、同様の収束特性を示す。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Angle based dynamic learning rate for gradient descent [2.5077510176642805]
分類タスクにおける勾配に基づく降下法を適応的に学習する手法を提案する。
勾配に基づく項を期待することで適応学習率を選択する従来の手法の代わりに、現在の勾配と新しい勾配の間の角度を用いる。
提案手法は,ほとんどのデータセットにおいて,最も精度の高い手法であることがわかった。
論文 参考訳(メタデータ) (2023-04-20T16:55:56Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - BFE and AdaBFE: A New Approach in Learning Rate Automation for
Stochastic Optimization [3.541406632811038]
学習速度を自動的に調整する勾配に基づく最適化手法を提案する。
このアプローチは、勾配降下(SGD)アルゴリズムに基づく学習率を最適化する代替手法である可能性がある。
論文 参考訳(メタデータ) (2022-07-06T15:55:53Z) - Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient
Methods for Deep Network Training [3.8762085568003406]
準ニュートン法に基づくセカント方程式に2点近似を用いて学習率を適用する。
本手法は,広く利用可能なデータセットの標準例ネットワークアーキテクチャを用いて評価し,文献の他の代替案と比較する。
論文 参考訳(メタデータ) (2022-05-27T02:12:59Z) - Adaptive Gradient Methods with Local Guarantees [48.980206926987606]
本稿では,最良局所前提条件に対する適応的後悔保証を証明可能な適応的勾配法を提案する。
視覚領域や言語領域で人気のあるベンチマークタスクに対して,最適な学習率スケジュールを自動的に選択する上で,本手法の堅牢性を示す。
論文 参考訳(メタデータ) (2022-03-02T20:45:14Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。