論文の概要: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for
Deep Learning
- arxiv url: http://arxiv.org/abs/2302.00252v2
- Date: Mon, 11 Mar 2024 23:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:23:35.879530
- Title: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for
Deep Learning
- Title(参考訳): qlabgrad: ディープラーニングのためのハイパーパラメータフリー・コンバージェンスガランテドスキーム
- Authors: Minghan Fu, Fang-Xiang Wu
- Abstract要約: QLABGradと呼ばれる新しい学習率適応方式を提案する。
QLABGradは、所定の勾配降下方向に対して、Quadratic Loss Approximation-Based (QLAB)関数を最適化することにより、学習率を自動的に決定する。
- 参考スコア(独自算出の注目度): 6.555832619920502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The learning rate is a critical hyperparameter for deep learning tasks since
it determines the extent to which the model parameters are updated during the
learning course. However, the choice of learning rates typically depends on
empirical judgment, which may not result in satisfactory outcomes without
intensive try-and-error experiments. In this study, we propose a novel learning
rate adaptation scheme called QLABGrad. Without any user-specified
hyperparameter, QLABGrad automatically determines the learning rate by
optimizing the Quadratic Loss Approximation-Based (QLAB) function for a given
gradient descent direction, where only one extra forward propagation is
required. We theoretically prove the convergence of QLABGrad with a smooth
Lipschitz condition on the loss function. Experiment results on multiple
architectures, including MLP, CNN, and ResNet, on MNIST, CIFAR10, and ImageNet
datasets, demonstrate that QLABGrad outperforms various competing schemes for
deep learning.
- Abstract(参考訳): 学習速度は、学習コース中にモデルパラメータが更新される範囲を決定するため、ディープラーニングタスクにとって重要なハイパーパラメータである。
しかし、学習率の選択は一般的に経験的判断に依存するため、集中的な試行錯誤実験がなければ十分な結果が得られない可能性がある。
本研究では,qlabgradと呼ばれる新しい学習率適応方式を提案する。
ユーザが指定したハイパーパラメータがなければ、QLABGradは、任意の勾配降下方向に対して、擬似ロス近似(QLAB)関数を最適化することにより、学習率を自動的に決定する。
QLABGradの損失関数に対する滑らかなリプシッツ条件による収束を理論的に証明する。
MNIST、CIFAR10、ImageNetデータセット上のMLP、CNN、ResNetなどの複数のアーキテクチャの実験結果は、QLABGradがディープラーニングのためのさまざまな競合するスキームより優れていることを実証している。
関連論文リスト
- Nonconvex Stochastic Bregman Proximal Gradient Method with Application
to Deep Learning [6.807786746803371]
微分可能部のスムーズな近似のみを必要とするBregman Bregman法(SBPG)の家系について検討する。
MSBPGは、計算において普遍的なオープンソースとして使われる可能性がある。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。