Fugu-MT 論文翻訳(概要): QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning

論文の概要: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning

arxiv url: http://arxiv.org/abs/2302.00252v2
Date: Mon, 11 Mar 2024 23:11:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 02:23:35.879530
Title: QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning
Title（参考訳）: qlabgrad: ディープラーニングのためのハイパーパラメータフリー・コンバージェンスガランテドスキーム
Authors: Minghan Fu, Fang-Xiang Wu
Abstract要約: QLABGradと呼ばれる新しい学習率適応方式を提案する。 QLABGradは、所定の勾配降下方向に対して、Quadratic Loss Approximation-Based (QLAB)関数を最適化することにより、学習率を自動的に決定する。
参考スコア（独自算出の注目度）: 6.555832619920502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The learning rate is a critical hyperparameter for deep learning tasks since it determines the extent to which the model parameters are updated during the learning course. However, the choice of learning rates typically depends on empirical judgment, which may not result in satisfactory outcomes without intensive try-and-error experiments. In this study, we propose a novel learning rate adaptation scheme called QLABGrad. Without any user-specified hyperparameter, QLABGrad automatically determines the learning rate by optimizing the Quadratic Loss Approximation-Based (QLAB) function for a given gradient descent direction, where only one extra forward propagation is required. We theoretically prove the convergence of QLABGrad with a smooth Lipschitz condition on the loss function. Experiment results on multiple architectures, including MLP, CNN, and ResNet, on MNIST, CIFAR10, and ImageNet datasets, demonstrate that QLABGrad outperforms various competing schemes for deep learning.
Abstract（参考訳）: 学習速度は、学習コース中にモデルパラメータが更新される範囲を決定するため、ディープラーニングタスクにとって重要なハイパーパラメータである。しかし、学習率の選択は一般的に経験的判断に依存するため、集中的な試行錯誤実験がなければ十分な結果が得られない可能性がある。本研究では,qlabgradと呼ばれる新しい学習率適応方式を提案する。ユーザが指定したハイパーパラメータがなければ、QLABGradは、任意の勾配降下方向に対して、擬似ロス近似(QLAB)関数を最適化することにより、学習率を自動的に決定する。 QLABGradの損失関数に対する滑らかなリプシッツ条件による収束を理論的に証明する。 MNIST、CIFAR10、ImageNetデータセット上のMLP、CNN、ResNetなどの複数のアーキテクチャの実験結果は、QLABGradがディープラーニングのためのさまざまな競合するスキームより優れていることを実証している。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-04-02T20:23:10Z)
Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-11-26T01:44:01Z)
Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。 MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文参考訳（メタデータ） (2023-06-26T08:54:46Z)
Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文参考訳（メタデータ） (2023-01-18T19:00:50Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。既存の保証は勾配降下により統一することができることを示す。
論文参考訳（メタデータ） (2021-06-25T17:45:00Z)
Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文参考訳（メタデータ） (2021-06-21T13:11:52Z)
GOALS: Gradient-Only Approximations for Line Searches Towards Robust and Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文参考訳（メタデータ） (2021-05-23T11:21:01Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。