論文の概要: Adaptive Learning Rates for Faster Stochastic Gradient Methods
- arxiv url: http://arxiv.org/abs/2208.05287v1
- Date: Wed, 10 Aug 2022 11:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:16:48.254052
- Title: Adaptive Learning Rates for Faster Stochastic Gradient Methods
- Title(参考訳): 高速確率勾配法のための適応学習速度
- Authors: Samuel Horv\'ath, Konstantin Mishchenko, Peter Richt\'arik
- Abstract要約: いくつかの2次凸勾配法を改善するための適応的なステップサイズ戦略を提案する。
最初の方法は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、この手法の最近の発展の延長である。
第2の手法であるGraDSは「勾配の多様性」によってステップサイズを再スケールする
- 参考スコア(独自算出の注目度): 6.935471115003109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose new adaptive step size strategies that improve
several stochastic gradient methods. Our first method (StoPS) is based on the
classical Polyak step size (Polyak, 1987) and is an extension of the recent
development of this method for the stochastic optimization-SPS (Loizou et al.,
2021), and our second method, denoted GraDS, rescales step size by "diversity
of stochastic gradients". We provide a theoretical analysis of these methods
for strongly convex smooth functions and show they enjoy deterministic-like
rates despite stochastic gradients. Furthermore, we demonstrate the theoretical
superiority of our adaptive methods on quadratic objectives. Unfortunately,
both StoPS and GraDS depend on unknown quantities, which are only practical for
the overparametrized models. To remedy this, we drop this undesired dependence
and redefine StoPS and GraDS to StoP and GraD, respectively. We show that these
new methods converge linearly to the neighbourhood of the optimal solution
under the same assumptions. Finally, we corroborate our theoretical claims by
experimental validation, which reveals that GraD is particularly useful for
deep learning optimization.
- Abstract(参考訳): 本研究では,いくつかの確率的勾配法を改良した適応ステップサイズ戦略を提案する。
第1の手法(StoPS)は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、近年の確率最適化SPS(Loizou et al., 2021)の手法の拡張であり、第2の手法であるGraDSは「確率勾配の多様性」によってステップサイズを再スケールする。
本稿では, 強凸な滑らかな関数に対するこれらの手法の理論解析を行い, 確率勾配に拘わらず, 決定論的な傾向を示す。
さらに,2次目的に対する適応手法の理論的優位性を示す。
残念ながら、ストップとグレードは未知の量に依存しており、これは過剰パラメータモデルにしか適用できない。
これを改善するために、この望ましくない依存を排除し、StoPSとGraDSをそれぞれStoPとGraDに再定義する。
これらの新しい手法は、同じ仮定の下で最適解の近傍に線形収束することを示す。
最後に,実験的検証によって理論的主張を裏付けることにより,gradがディープラーニングの最適化に特に有用であることを示す。
関連論文リスト
- A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Adapting Step-size: A Unified Perspective to Analyze and Improve
Gradient-based Methods for Adversarial Attacks [21.16546620434816]
勾配に基づく逆学習手法の統一的理論的解釈を提供する。
これらのアルゴリズムのそれぞれが、実際には、元の勾配法の特定の再構成であることを示す。
正規勾配法に基づく適応勾配に基づくアルゴリズムの幅広いクラスを示す。
論文 参考訳(メタデータ) (2023-01-27T06:17:51Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Cutting Some Slack for SGD with Adaptive Polyak Stepsizes [35.024680868164445]
SPS (Stochastic gradient with a Polyak Stepsize) 適応法について考察する。
まず、SPSとその最近の変種は、すべて非線形問題に適用されたパッシブ・攻撃的手法の拡張と見なせることを示す。
我々はこの知見を用いて非線形モデルに適した新しいSPS法を開発した。
論文 参考訳(メタデータ) (2022-02-24T19:31:03Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - A Discrete Variational Derivation of Accelerated Methods in Optimization [68.8204255655161]
最適化のための異なる手法を導出できる変分法を導入する。
我々は1対1の対応において最適化手法の2つのファミリを導出する。
自律システムのシンプレクティシティの保存は、ここでは繊維のみに行われる。
論文 参考訳(メタデータ) (2021-06-04T20:21:53Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。