論文の概要: Adaptive Learning Rates for Faster Stochastic Gradient Methods
- arxiv url: http://arxiv.org/abs/2208.05287v1
- Date: Wed, 10 Aug 2022 11:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:16:48.254052
- Title: Adaptive Learning Rates for Faster Stochastic Gradient Methods
- Title(参考訳): 高速確率勾配法のための適応学習速度
- Authors: Samuel Horv\'ath, Konstantin Mishchenko, Peter Richt\'arik
- Abstract要約: いくつかの2次凸勾配法を改善するための適応的なステップサイズ戦略を提案する。
最初の方法は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、この手法の最近の発展の延長である。
第2の手法であるGraDSは「勾配の多様性」によってステップサイズを再スケールする
- 参考スコア(独自算出の注目度): 6.935471115003109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose new adaptive step size strategies that improve
several stochastic gradient methods. Our first method (StoPS) is based on the
classical Polyak step size (Polyak, 1987) and is an extension of the recent
development of this method for the stochastic optimization-SPS (Loizou et al.,
2021), and our second method, denoted GraDS, rescales step size by "diversity
of stochastic gradients". We provide a theoretical analysis of these methods
for strongly convex smooth functions and show they enjoy deterministic-like
rates despite stochastic gradients. Furthermore, we demonstrate the theoretical
superiority of our adaptive methods on quadratic objectives. Unfortunately,
both StoPS and GraDS depend on unknown quantities, which are only practical for
the overparametrized models. To remedy this, we drop this undesired dependence
and redefine StoPS and GraDS to StoP and GraD, respectively. We show that these
new methods converge linearly to the neighbourhood of the optimal solution
under the same assumptions. Finally, we corroborate our theoretical claims by
experimental validation, which reveals that GraD is particularly useful for
deep learning optimization.
- Abstract(参考訳): 本研究では,いくつかの確率的勾配法を改良した適応ステップサイズ戦略を提案する。
第1の手法(StoPS)は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、近年の確率最適化SPS(Loizou et al., 2021)の手法の拡張であり、第2の手法であるGraDSは「確率勾配の多様性」によってステップサイズを再スケールする。
本稿では, 強凸な滑らかな関数に対するこれらの手法の理論解析を行い, 確率勾配に拘わらず, 決定論的な傾向を示す。
さらに,2次目的に対する適応手法の理論的優位性を示す。
残念ながら、ストップとグレードは未知の量に依存しており、これは過剰パラメータモデルにしか適用できない。
これを改善するために、この望ましくない依存を排除し、StoPSとGraDSをそれぞれStoPとGraDに再定義する。
これらの新しい手法は、同じ仮定の下で最適解の近傍に線形収束することを示す。
最後に,実験的検証によって理論的主張を裏付けることにより,gradがディープラーニングの最適化に特に有用であることを示す。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Cutting Some Slack for SGD with Adaptive Polyak Stepsizes [35.024680868164445]
SPS (Stochastic gradient with a Polyak Stepsize) 適応法について考察する。
まず、SPSとその最近の変種は、すべて非線形問題に適用されたパッシブ・攻撃的手法の拡張と見なせることを示す。
我々はこの知見を用いて非線形モデルに適した新しいSPS法を開発した。
論文 参考訳(メタデータ) (2022-02-24T19:31:03Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - A Discrete Variational Derivation of Accelerated Methods in Optimization [68.8204255655161]
最適化のための異なる手法を導出できる変分法を導入する。
我々は1対1の対応において最適化手法の2つのファミリを導出する。
自律システムのシンプレクティシティの保存は、ここでは繊維のみに行われる。
論文 参考訳(メタデータ) (2021-06-04T20:21:53Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。