論文の概要: QLAB: Quadratic Loss Approximation-Based Optimal Learning Rate for Deep
Learning
- arxiv url: http://arxiv.org/abs/2302.00252v1
- Date: Wed, 1 Feb 2023 05:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 17:51:21.040479
- Title: QLAB: Quadratic Loss Approximation-Based Optimal Learning Rate for Deep
Learning
- Title(参考訳): QLAB: ディープラーニングのための擬似損失近似に基づく最適学習率
- Authors: Minghan Fu, Fang-Xiang Wu
- Abstract要約: 本稿では、降下計算のための学習率適応方式QNISTを提案する。
我々は、損失関数の二次近似を最適化し、QLABを降下更新方向を提供する計算と組み合わせることで、QLABを導出する。
QLABの有効性は, 決定的な勾配降下, 勾配降下, 運動量, およびAdamと組み合わせることで, 最適化問題におけるQLABの有効性を示す。
- 参考スコア(独自算出の注目度): 9.371069592324416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a learning rate adaptation scheme, called QLAB, for descent
optimizers. We derive QLAB by optimizing the quadratic approximation of the
loss function and QLAB can be combined with any optimizer who can provide the
descent update direction. The computation of an adaptive learning rate with
QLAB requires only computing an extra loss function value. We theoretically
prove the convergence of the descent optimizers with QLAB. We demonstrate the
effectiveness of QLAB in a range of optimization problems by combining with
conclusively stochastic gradient descent, stochastic gradient descent with
momentum, and Adam. The performance is validated on multi-layer neural
networks, CNN, VGG-Net, ResNet and ShuffleNet with two datasets, MNIST and
CIFAR10.
- Abstract(参考訳): 降下最適化のための学習率適応方式であるQLABを提案する。
損失関数の二次近似を最適化することでqlabを導出し、降下更新方向を提供できる任意のオプティマイザとqlabを組み合わせることができる。
QLABによる適応学習率の計算は、余分な損失関数値のみを計算する必要がある。
qlabによる降下オプティマイザの収束を理論的に証明する。
本稿では,確率勾配勾配と運動量による確率勾配勾配とを組み合わせ,様々な最適化問題におけるQLABの有効性を示す。
この性能は、MNISTとCIFAR10という2つのデータセットで、多層ニューラルネットワーク、CNN、VGG-Net、ResNet、ShuffleNetで検証されている。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。