Fugu-MT 論文翻訳(概要): Interpreting Adaptive Gradient Methods by Parameter Scaling for Learning-Rate-Free Optimization

論文の概要: Interpreting Adaptive Gradient Methods by Parameter Scaling for Learning-Rate-Free Optimization

arxiv url: http://arxiv.org/abs/2401.03240v1
Date: Sat, 6 Jan 2024 15:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 19:35:10.218858
Title: Interpreting Adaptive Gradient Methods by Parameter Scaling for Learning-Rate-Free Optimization
Title（参考訳）: 学習速度フリー最適化のためのパラメータスケーリングによる適応勾配法解釈
Authors: Min-Kook Suh and Seung-Woo Seo
Abstract要約: 深層ニューラルネットワークの学習に使用される適応的勾配法について,学習率を推定する上での課題に対処する。学習速度のないいくつかのアプローチが提案されているが、それらは典型的には最も急降下に適したものである。本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈する。
参考スコア（独自算出の注目度）: 14.009179786857802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the challenge of estimating the learning rate for adaptive gradient methods used in training deep neural networks. While several learning-rate-free approaches have been proposed, they are typically tailored for steepest descent. However, although steepest descent methods offer an intuitive approach to finding minima, many deep learning applications require adaptive gradient methods to achieve faster convergence. In this paper, we interpret adaptive gradient methods as steepest descent applied on parameter-scaled networks, proposing learning-rate-free adaptive gradient methods. Experimental results verify the effectiveness of this approach, demonstrating comparable performance to hand-tuned learning rates across various scenarios. This work extends the applicability of learning-rate-free methods, enhancing training with adaptive gradient methods.
Abstract（参考訳）: 深層ニューラルネットワークのトレーニングに使用される適応的勾配法における学習率推定の課題に対処する。いくつかの学習率フリーアプローチが提案されているが、通常は最も急な降下用に調整されている。しかしながら、最急降下法では最小値を見つけるための直感的なアプローチを提供するが、多くのディープラーニングアプリケーションはより高速な収束を達成するために適応勾配法を必要とする。本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈し,学習速度のない適応勾配法を提案する。提案手法の有効性を検証し,様々なシナリオにおけるハンドチューニング学習率と同等の性能を示す。本研究は,学習速度自由法の適用可能性を拡張し,適応勾配法を用いてトレーニングを強化する。

関連論文リスト

Scaled Conjugate Gradient Method for Nonconvex Optimization in Deep Neural Networks [0.6144680854063939]
ディープニューラルネットワークを用いた非最適化問題の解法として,スケールド共役勾配法を提案する。提案手法は,画像分類やテキスト分類の実用化において,共役勾配法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T02:57:23Z)
Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文参考訳（メタデータ） (2024-08-17T02:22:08Z)
Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation [15.791041311313448]
勾配アライメントに基づくテスト時間適応法(GraTa)による勾配方向と学習率の向上 GraTa法は、勾配アライメントを容易にするために、擬似的勾配に補助勾配を組み込む。擬似勾配と補助勾配のコサイン類似性に基づく動的学習率を設計する。
論文参考訳（メタデータ） (2024-08-14T07:37:07Z)
Angle based dynamic learning rate for gradient descent [2.5077510176642805]
分類タスクにおける勾配に基づく降下法を適応的に学習する手法を提案する。勾配に基づく項を期待することで適応学習率を選択する従来の手法の代わりに、現在の勾配と新しい勾配の間の角度を用いる。提案手法は,ほとんどのデータセットにおいて,最も精度の高い手法であることがわかった。
論文参考訳（メタデータ） (2023-04-20T16:55:56Z)
BFE and AdaBFE: A New Approach in Learning Rate Automation for Stochastic Optimization [3.541406632811038]
学習速度を自動的に調整する勾配に基づく最適化手法を提案する。このアプローチは、勾配降下(SGD)アルゴリズムに基づく学習率を最適化する代替手法である可能性がある。
論文参考訳（メタデータ） (2022-07-06T15:55:53Z)
Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient Methods for Deep Network Training [3.8762085568003406]
準ニュートン法に基づくセカント方程式に2点近似を用いて学習率を適用する。本手法は,広く利用可能なデータセットの標準例ネットワークアーキテクチャを用いて評価し,文献の他の代替案と比較する。
論文参考訳（メタデータ） (2022-05-27T02:12:59Z)
Adaptive Gradient Methods with Local Guarantees [48.980206926987606]
本稿では,最良局所前提条件に対する適応的後悔保証を証明可能な適応的勾配法を提案する。視覚領域や言語領域で人気のあるベンチマークタスクに対して,最適な学習率スケジュールを自動的に選択する上で,本手法の堅牢性を示す。
論文参考訳（メタデータ） (2022-03-02T20:45:14Z)
Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文参考訳（メタデータ） (2022-01-22T17:44:19Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。適応勾配法の一般化に関する経験的および理論的考察を示す。
論文参考訳（メタデータ） (2020-02-26T21:42:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。