論文の概要: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for
Deep Learning
- arxiv url: http://arxiv.org/abs/2302.00252v2
- Date: Mon, 11 Mar 2024 23:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:23:35.879530
- Title: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for
Deep Learning
- Title(参考訳): qlabgrad: ディープラーニングのためのハイパーパラメータフリー・コンバージェンスガランテドスキーム
- Authors: Minghan Fu, Fang-Xiang Wu
- Abstract要約: QLABGradと呼ばれる新しい学習率適応方式を提案する。
QLABGradは、所定の勾配降下方向に対して、Quadratic Loss Approximation-Based (QLAB)関数を最適化することにより、学習率を自動的に決定する。
- 参考スコア(独自算出の注目度): 6.555832619920502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The learning rate is a critical hyperparameter for deep learning tasks since
it determines the extent to which the model parameters are updated during the
learning course. However, the choice of learning rates typically depends on
empirical judgment, which may not result in satisfactory outcomes without
intensive try-and-error experiments. In this study, we propose a novel learning
rate adaptation scheme called QLABGrad. Without any user-specified
hyperparameter, QLABGrad automatically determines the learning rate by
optimizing the Quadratic Loss Approximation-Based (QLAB) function for a given
gradient descent direction, where only one extra forward propagation is
required. We theoretically prove the convergence of QLABGrad with a smooth
Lipschitz condition on the loss function. Experiment results on multiple
architectures, including MLP, CNN, and ResNet, on MNIST, CIFAR10, and ImageNet
datasets, demonstrate that QLABGrad outperforms various competing schemes for
deep learning.
- Abstract(参考訳): 学習速度は、学習コース中にモデルパラメータが更新される範囲を決定するため、ディープラーニングタスクにとって重要なハイパーパラメータである。
しかし、学習率の選択は一般的に経験的判断に依存するため、集中的な試行錯誤実験がなければ十分な結果が得られない可能性がある。
本研究では,qlabgradと呼ばれる新しい学習率適応方式を提案する。
ユーザが指定したハイパーパラメータがなければ、QLABGradは、任意の勾配降下方向に対して、擬似ロス近似(QLAB)関数を最適化することにより、学習率を自動的に決定する。
QLABGradの損失関数に対する滑らかなリプシッツ条件による収束を理論的に証明する。
MNIST、CIFAR10、ImageNetデータセット上のMLP、CNN、ResNetなどの複数のアーキテクチャの実験結果は、QLABGradがディープラーニングのためのさまざまな競合するスキームより優れていることを実証している。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。