論文の概要: AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2505.21651v1
- Date: Tue, 27 May 2025 18:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.228397
- Title: AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent
- Title(参考訳): AutoSGD:確率勾配Descentのための自動学習速度選択
- Authors: Nikola Surjanovic, Alexandre Bouchard-Côté, Trevor Campbell,
- Abstract要約: 本稿では,SGD法であるAutoSGDを紹介する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
- 参考スコア(独自算出の注目度): 58.05410015124021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The learning rate is an important tuning parameter for stochastic gradient descent (SGD) and can greatly influence its performance. However, appropriate selection of a learning rate schedule across all iterations typically requires a non-trivial amount of user tuning effort. To address this, we introduce AutoSGD: an SGD method that automatically determines whether to increase or decrease the learning rate at a given iteration and then takes appropriate action. We introduce theory supporting the convergence of AutoSGD, along with its deterministic counterpart for standard gradient descent. Empirical results suggest strong performance of the method on a variety of traditional optimization problems and machine learning tasks.
- Abstract(参考訳): 学習速度は確率勾配降下(SGD)の重要なチューニングパラメータであり,その性能に大きな影響を与える。
しかしながら、すべてのイテレーションで学習率スケジュールを適切に選択するには、通常、簡単な量のユーザチューニング作業が必要です。
そこで本研究では,与えられた反復で学習率が向上するか低下するかを自動的に判断し,適切な行動をとるSGD手法であるAutoSGDを紹介する。
本稿では,AutoSGDの収束を支持する理論と,標準勾配降下に対する決定論的理論を導入する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization [0.6906005491572401]
バッチ降下(SGD)におけるノイズは,目的関数の平滑化の効果を示す。
SGDsノイズによるスムース化の程度と、よく研究されたシャープネスの指標との間には、興味深い関係があることが示されている。
論文 参考訳(メタデータ) (2023-11-15T07:27:40Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation [8.340191147575307]
我々は,潜在ガウス過程と自己回帰的定式化に基づく,オプティマイザのトレースに対する元の確率モデルを導入する。
新しい学習率値によって引き起こされる行動の急激な変化に柔軟に調整する。
まず、コールドスタート実行のための学習率のオンライン適応のために、次に、同様のタスクセットのスケジュールを調整し、新しいタスクのためにウォームスタートするために、一連の問題に取り組むのが適しています。
論文 参考訳(メタデータ) (2020-06-25T13:18:18Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Statistical Adaptive Stochastic Gradient Methods [34.859895010071234]
本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。
SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。
本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
論文 参考訳(メタデータ) (2020-02-25T00:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。