論文の概要: Learning to Accelerate by the Methods of Step-size Planning
- arxiv url: http://arxiv.org/abs/2204.01705v1
- Date: Fri, 1 Apr 2022 19:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 05:15:24.544611
- Title: Learning to Accelerate by the Methods of Step-size Planning
- Title(参考訳): ステップサイズの計画手法による加速学習
- Authors: Hengshuai Yao
- Abstract要約: 勾配降下は不条件問題や非次元問題に対して収束するのが遅い。
ステップサイズ適応は加速の重要な手法である。
我々は,Nesterovの加速速度の収束率を超えることができることを示す。
- 参考スコア(独自算出の注目度): 11.65690857661528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient descent is slow to converge for ill-conditioned problems and
non-convex problems. An important technique for acceleration is step-size
adaptation. The first part of this paper contains a detailed review of
step-size adaptation methods, including Polyak step-size, L4, LossGrad, Adam
and IDBD. In the second part of this paper, we propose a new class of methods
of accelerating gradient descent that are quite different from existing
techniques. The new methods, which we call {\em step-size planning}, use the
{\em update experience} to learn an improved way of updating the parameters.
The methods organize the experience into $K$ steps away from each other to
facilitate planning. From the past experience, our planning algorithm, Csawg,
learns a step-size model which is a form of multi-step machine that predicts
future updates. We extends Csawg to applying step-size planning multiple steps,
which leads to further speedup. We discuss and highlight the projection power
of the diagonal-matrix step-size for future large scale applications. We show
for a convex problem, our methods can surpass the convergence rate of
Nesterov's accelerated gradient, $1 - \sqrt{\mu/L}$, where $\mu, L$ are the
strongly convex factor of the loss function $F$ and the Lipschitz constant of
$F'$. On the classical non-convex Rosenbrock function, our planning methods
achieve zero error below 500 gradient evaluations, while gradient descent takes
about 10000 gradient evaluations to reach a $10^{-3}$ accuracy. We discuss the
connection of step-size planing to planning in reinforcement learning, in
particular, Dyna architectures. We leave convergence and convergence rate
proofs and applications of the methods to high-dimensional problems for future
work.
- Abstract(参考訳): 勾配降下は不条件問題や非凸問題に収束するのが遅い。
加速の重要な技術はステップサイズ適応である。
本論文の第1部では,Polyak Step-Size, L4, LossGrad, Adam, IDBDなど,ステップサイズ適応手法の詳細なレビューを紹介する。
本稿の第2部では,既存の手法とは全く異なる勾配降下を加速する新しい分類法を提案する。
新しいメソッドは、"em step-size planning}"と呼ばれ、"em update experience}を使ってパラメータを更新するための改良された方法を学びます。
それぞれのメソッドは、経験をプランニングを容易にするために互いにK$のステップにまとめます。
過去の経験から,我々の計画アルゴリズムであるcsawgは,今後の更新を予測するマルチステップマシンの一形態であるステップサイズモデルを学ぶ。
私たちはCsawgを拡張して、ステップサイズの計画複数のステップを適用しました。
本稿では,今後の大規模応用に向けて,対角行列ステップサイズの投影力について論じる。
凸問題に対して、我々の手法はネステロフの加速勾配の収束率を1 - \sqrt{\mu/L}$で上回り、そこで、$\mu, L$ は損失関数 $F$ の強い凸因子であり、リプシッツ定数は $F'$ である。
古典的非凸ローゼンブロック関数では,500以上の勾配評価をゼロ誤差で達成し,勾配降下は10000の勾配評価を行ない,精度は10^{-3}である。
本稿では,強化学習,特にDynaアーキテクチャにおけるステップサイズプランニングとプランニングとの関連について論じる。
コンバージェンスと収束率の証明と手法の今後の研究のための高次元問題への応用を残している。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - How Two-Layer Neural Networks Learn, One (Giant) Step at a Time [24.773974771715956]
本研究では、2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを理論的に検討する。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
我々は、$n = MathcalO(d)$のバッチサイズが、階段の性質を満たす複数の目標方向を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:43:44Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Cutting Some Slack for SGD with Adaptive Polyak Stepsizes [35.024680868164445]
SPS (Stochastic gradient with a Polyak Stepsize) 適応法について考察する。
まず、SPSとその最近の変種は、すべて非線形問題に適用されたパッシブ・攻撃的手法の拡張と見なせることを示す。
我々はこの知見を用いて非線形モデルに適した新しいSPS法を開発した。
論文 参考訳(メタデータ) (2022-02-24T19:31:03Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。