論文の概要: Momentum-based variance-reduced proximal stochastic gradient method for
composite nonconvex stochastic optimization
- arxiv url: http://arxiv.org/abs/2006.00425v3
- Date: Fri, 29 Apr 2022 11:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:15:31.402135
- Title: Momentum-based variance-reduced proximal stochastic gradient method for
composite nonconvex stochastic optimization
- Title(参考訳): モーメントに基づく分散型近位確率勾配法による複合非凸確率最適化
- Authors: Yangyang Xu and Yibo Xu
- Abstract要約: 勾配学習法(SGM)は、問題解決や大規模機械学習問題に広く用いられている。
我々は,非滑らかな問題を解くための新しいSGM,PStormを提案する。
- 参考スコア(独自算出の注目度): 8.014215296763435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient methods (SGMs) have been extensively used for solving
stochastic problems or large-scale machine learning problems. Recent works
employ various techniques to improve the convergence rate of SGMs for both
convex and nonconvex cases. Most of them require a large number of samples in
some or all iterations of the improved SGMs. In this paper, we propose a new
SGM, named PStorm, for solving nonconvex nonsmooth stochastic problems. With a
momentum-based variance reduction technique, PStorm can achieve the optimal
complexity result $O(\varepsilon^{-3})$ to produce a stochastic
$\varepsilon$-stationary solution, if a mean-squared smoothness condition
holds. Different from existing optimal methods, PStorm can achieve the
${O}(\varepsilon^{-3})$ result by using only one or $O(1)$ samples in every
update. With this property, PStorm can be applied to online learning problems
that favor real-time decisions based on one or $O(1)$ new observations. In
addition, for large-scale machine learning problems, PStorm can generalize
better by small-batch training than other optimal methods that require
large-batch training and the vanilla SGM, as we demonstrate on training a
sparse fully-connected neural network and a sparse convolutional neural
network.
- Abstract(参考訳): 確率勾配法(SGM)は、確率的問題や大規模機械学習の問題解決に広く用いられている。
最近の研究は、凸と非凸の両方のsgmの収束率を改善するために様々な技術を用いている。
それらのほとんどは、改良されたsgmの一部または全部のイテレーションで大量のサンプルを必要とする。
本稿では,非凸非滑らか確率問題の解法として,PStormという新しいSGMを提案する。
運動量に基づく分散還元法により、平均二乗滑らか性条件が成立すれば、PStorm は最適複雑性結果 $O(\varepsilon^{-3})$ を達成することができる。
既存の最適メソッドとは異なり、PStormは更新毎に1つまたは$O(1)$サンプルを使用することで${O}(\varepsilon^{-3})$結果を達成することができる。
この特性により、PStormは1つまたは$O(1)$の新たな観測に基づくリアルタイム決定を好むオンライン学習問題に適用できる。
さらに、大規模な機械学習問題では、スパース完全接続ニューラルネットワークとスパース畳み込みニューラルネットワークのトレーニングを実演しているように、PStormは、大規模なバッチトレーニングとバニラSGMを必要とする他の最適な方法よりも、小さなバッチトレーニングによってより一般化することができる。
関連論文リスト
- Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Randomized Stochastic Variance-Reduced Methods for Stochastic Bilevel
Optimization [62.87181271021217]
機械学習に多くの応用がある非SBO問題を考察する。
本稿では,非SBO問題に対する高速ランダム化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-05T18:28:42Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - FANOK: Knockoffs in Linear Time [73.5154025911318]
本稿では,ガウスモデル-Xノックオフを効率的に実装し,大規模特徴選択問題における誤発見率を制御するアルゴリズムについて述べる。
当社のメソッドは、最大50,000ドルという問題でテストしています。
論文 参考訳(メタデータ) (2020-06-15T21:55:34Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z) - Nonconvex Zeroth-Order Stochastic ADMM Methods with Lower Function Query
Complexity [109.54166127479093]
ゼロ次法(ゼロ次法、英: Zeroth-order method)は、機械学習問題を解決するための効果的な最適化手法のクラスである。
本稿では,非有限項問題を解くために,より高速なゼロ階交互勾配法乗算器 (MMADMM) を提案する。
我々は、ZOMMAD法が、$epsilon$-stationary pointを見つけるために、より低い関数$O(frac13nfrac1)$を達成することができることを示す。
同時に、より高速なゼロオーダーオンラインADM手法(M)を提案する。
論文 参考訳(メタデータ) (2019-07-30T02:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。