論文の概要: Momentum-based variance-reduced proximal stochastic gradient method for
composite nonconvex stochastic optimization
- arxiv url: http://arxiv.org/abs/2006.00425v3
- Date: Fri, 29 Apr 2022 11:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:15:31.402135
- Title: Momentum-based variance-reduced proximal stochastic gradient method for
composite nonconvex stochastic optimization
- Title(参考訳): モーメントに基づく分散型近位確率勾配法による複合非凸確率最適化
- Authors: Yangyang Xu and Yibo Xu
- Abstract要約: 勾配学習法(SGM)は、問題解決や大規模機械学習問題に広く用いられている。
我々は,非滑らかな問題を解くための新しいSGM,PStormを提案する。
- 参考スコア(独自算出の注目度): 8.014215296763435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient methods (SGMs) have been extensively used for solving
stochastic problems or large-scale machine learning problems. Recent works
employ various techniques to improve the convergence rate of SGMs for both
convex and nonconvex cases. Most of them require a large number of samples in
some or all iterations of the improved SGMs. In this paper, we propose a new
SGM, named PStorm, for solving nonconvex nonsmooth stochastic problems. With a
momentum-based variance reduction technique, PStorm can achieve the optimal
complexity result $O(\varepsilon^{-3})$ to produce a stochastic
$\varepsilon$-stationary solution, if a mean-squared smoothness condition
holds. Different from existing optimal methods, PStorm can achieve the
${O}(\varepsilon^{-3})$ result by using only one or $O(1)$ samples in every
update. With this property, PStorm can be applied to online learning problems
that favor real-time decisions based on one or $O(1)$ new observations. In
addition, for large-scale machine learning problems, PStorm can generalize
better by small-batch training than other optimal methods that require
large-batch training and the vanilla SGM, as we demonstrate on training a
sparse fully-connected neural network and a sparse convolutional neural
network.
- Abstract(参考訳): 確率勾配法(SGM)は、確率的問題や大規模機械学習の問題解決に広く用いられている。
最近の研究は、凸と非凸の両方のsgmの収束率を改善するために様々な技術を用いている。
それらのほとんどは、改良されたsgmの一部または全部のイテレーションで大量のサンプルを必要とする。
本稿では,非凸非滑らか確率問題の解法として,PStormという新しいSGMを提案する。
運動量に基づく分散還元法により、平均二乗滑らか性条件が成立すれば、PStorm は最適複雑性結果 $O(\varepsilon^{-3})$ を達成することができる。
既存の最適メソッドとは異なり、PStormは更新毎に1つまたは$O(1)$サンプルを使用することで${O}(\varepsilon^{-3})$結果を達成することができる。
この特性により、PStormは1つまたは$O(1)$の新たな観測に基づくリアルタイム決定を好むオンライン学習問題に適用できる。
さらに、大規模な機械学習問題では、スパース完全接続ニューラルネットワークとスパース畳み込みニューラルネットワークのトレーニングを実演しているように、PStormは、大規模なバッチトレーニングとバニラSGMを必要とする他の最適な方法よりも、小さなバッチトレーニングによってより一般化することができる。
関連論文リスト
- Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum [30.01198677588252]
1次アルゴリズムは、$varepsilon-stationary pointを見つけるのに少なくとも$mathcalO(varepsilonepsilon-4)$ complexityを必要とする。
本稿では,高効率な変動複雑性を生かした新しい運動量アルゴリズムを提案する。
本手法の有効性は実世界のデータセットを用いてロジスティック回帰を用いて検証する。
論文 参考訳(メタデータ) (2024-06-18T20:14:52Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Randomized Stochastic Variance-Reduced Methods for Stochastic Bilevel
Optimization [62.87181271021217]
機械学習に多くの応用がある非SBO問題を考察する。
本稿では,非SBO問題に対する高速ランダム化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-05T18:28:42Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - FANOK: Knockoffs in Linear Time [73.5154025911318]
本稿では,ガウスモデル-Xノックオフを効率的に実装し,大規模特徴選択問題における誤発見率を制御するアルゴリズムについて述べる。
当社のメソッドは、最大50,000ドルという問題でテストしています。
論文 参考訳(メタデータ) (2020-06-15T21:55:34Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。