論文の概要: SketchySGD: Reliable Stochastic Optimization via Robust Curvature
Estimates
- arxiv url: http://arxiv.org/abs/2211.08597v1
- Date: Wed, 16 Nov 2022 01:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:43:16.567173
- Title: SketchySGD: Reliable Stochastic Optimization via Robust Curvature
Estimates
- Title(参考訳): SketchySGD:ロバスト曲率推定による信頼性確率最適化
- Authors: Zachary Frangella, Pratik Rathore, Shipu Zhao, Madeleine Udell
- Abstract要約: 我々は、スケッチを用いて損失関数の曲率を近似する準ニュートン法であるSketchySGDを紹介する。
準ニュートン法は従来のアルゴリズムにおいて最も効果的なアルゴリズムの一つであり、SGDのような一階法よりもはるかに高速に収束する。
- 参考スコア(独自算出の注目度): 16.899237833310064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SketchySGD, a stochastic quasi-Newton method that uses sketching
to approximate the curvature of the loss function. Quasi-Newton methods are
among the most effective algorithms in traditional optimization, where they
converge much faster than first-order methods such as SGD. However, for
contemporary deep learning, quasi-Newton methods are considered inferior to
first-order methods like SGD and Adam owing to higher per-iteration complexity
and fragility due to inexact gradients. SketchySGD circumvents these issues by
a novel combination of subsampling, randomized low-rank approximation, and
dynamic regularization. In the convex case, we show SketchySGD with a fixed
stepsize converges to a small ball around the optimum at a faster rate than
SGD. In the non-convex case, SketchySGD converges linearly under two additional
assumptions, interpolation and the Polyak-Lojaciewicz condition, the latter of
which holds with high probability for wide neural networks. Numerical
experiments on image and tabular data demonstrate the improved reliability and
speed of SketchySGD for deep learning, compared to standard optimizers such as
SGD and Adam and existing quasi-Newton methods.
- Abstract(参考訳): 我々は、スケッチを用いて損失関数の曲率を近似する確率的準ニュートン法であるSketchySGDを紹介する。
準ニュートン法は従来の最適化において最も効果的なアルゴリズムの一つであり、sgdのような一階法よりもはるかに高速に収束する。
しかし、現代の深層学習においては、準ニュートン法はSGDやAdamのような一階法に劣るものと見なされている。
SketchySGDは、サブサンプリング、ランダム化ローランク近似、動的正規化という新しい組み合わせによってこれらの問題を回避している。
凸の場合、SketchySGDはSGDよりも速い速度で、固定ステップサイズで最適の周りの小さな球に収束する。
非凸の場合、sketchysgdは補間(interpolation)とpolyak-lojaciewicz条件(polyak-lojaciewicz condition)という2つの追加の仮定の下で線形収束する。
画像および表データの数値実験により、SGDやAdamのような標準的な最適化手法や既存の準ニュートン法と比較して、深層学習のためのSketchySGDの信頼性と速度が改善された。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - An adaptive Hessian approximated stochastic gradient MCMC method [12.93317525451798]
後方からのサンプリング中に局所的幾何情報を組み込む適応型ヘッセン近似勾配MCMC法を提案する。
我々は,ネットワークの空間性を高めるために,等級に基づく重み付け法を採用する。
論文 参考訳(メタデータ) (2020-10-03T16:22:15Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence [30.393999722555154]
本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
論文 参考訳(メタデータ) (2020-02-24T20:57:23Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。