Fugu-MT 論文翻訳(概要): Momentum-based variance-reduced proximal stochastic gradient method for composite nonconvex stochastic optimization

論文の概要: Momentum-based variance-reduced proximal stochastic gradient method for composite nonconvex stochastic optimization

arxiv url: http://arxiv.org/abs/2006.00425v3
Date: Fri, 29 Apr 2022 11:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 13:15:31.402135
Title: Momentum-based variance-reduced proximal stochastic gradient method for composite nonconvex stochastic optimization
Title（参考訳）: モーメントに基づく分散型近位確率勾配法による複合非凸確率最適化
Authors: Yangyang Xu and Yibo Xu
Abstract要約: 勾配学習法(SGM)は、問題解決や大規模機械学習問題に広く用いられている。我々は,非滑らかな問題を解くための新しいSGM,PStormを提案する。
参考スコア（独自算出の注目度）: 8.014215296763435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient methods (SGMs) have been extensively used for solving stochastic problems or large-scale machine learning problems. Recent works employ various techniques to improve the convergence rate of SGMs for both convex and nonconvex cases. Most of them require a large number of samples in some or all iterations of the improved SGMs. In this paper, we propose a new SGM, named PStorm, for solving nonconvex nonsmooth stochastic problems. With a momentum-based variance reduction technique, PStorm can achieve the optimal complexity result $O(\varepsilon^{-3})$ to produce a stochastic $\varepsilon$-stationary solution, if a mean-squared smoothness condition holds. Different from existing optimal methods, PStorm can achieve the ${O}(\varepsilon^{-3})$ result by using only one or $O(1)$ samples in every update. With this property, PStorm can be applied to online learning problems that favor real-time decisions based on one or $O(1)$ new observations. In addition, for large-scale machine learning problems, PStorm can generalize better by small-batch training than other optimal methods that require large-batch training and the vanilla SGM, as we demonstrate on training a sparse fully-connected neural network and a sparse convolutional neural network.
Abstract（参考訳）: 確率勾配法(SGM)は、確率的問題や大規模機械学習の問題解決に広く用いられている。最近の研究は、凸と非凸の両方のsgmの収束率を改善するために様々な技術を用いている。それらのほとんどは、改良されたsgmの一部または全部のイテレーションで大量のサンプルを必要とする。本稿では,非凸非滑らか確率問題の解法として,PStormという新しいSGMを提案する。運動量に基づく分散還元法により、平均二乗滑らか性条件が成立すれば、PStorm は最適複雑性結果 $O(\varepsilon^{-3})$ を達成することができる。既存の最適メソッドとは異なり、PStormは更新毎に1つまたは$O(1)$サンプルを使用することで${O}(\varepsilon^{-3})$結果を達成することができる。この特性により、PStormは1つまたは$O(1)$の新たな観測に基づくリアルタイム決定を好むオンライン学習問題に適用できる。さらに、大規模な機械学習問題では、スパース完全接続ニューラルネットワークとスパース畳み込みニューラルネットワークのトレーニングを実演しているように、PStormは、大規模なバッチトレーニングとバニラSGMを必要とする他の最適な方法よりも、小さなバッチトレーニングによってより一般化することができる。

関連論文リスト

Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum [30.01198677588252]
1次アルゴリズムは、$varepsilon-stationary pointを見つけるのに少なくとも$mathcalO(varepsilonepsilon-4)$ complexityを必要とする。本稿では,高効率な変動複雑性を生かした新しい運動量アルゴリズムを提案する。本手法の有効性は実世界のデータセットを用いてロジスティック回帰を用いて検証する。
論文参考訳（メタデータ） (2024-06-18T20:14:52Z)
MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文参考訳（メタデータ） (2024-05-29T18:36:59Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
Enhanced Adaptive Gradient Algorithms for Nonconvex-PL Minimax Optimization [41.28002701420715]
ミニマックス最適化は多くの機械学習タスクに広く応用されている。我々は,本手法が特定の型に依存することなく,最もよく知られたサンプル複雑性を有することを示す。
論文参考訳（メタデータ） (2023-03-07T15:33:12Z)
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文参考訳（メタデータ） (2023-02-25T14:14:01Z)
Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-19T14:48:54Z)
Multi-block-Single-probe Variance Reduced Estimator for Coupled Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文参考訳（メタデータ） (2022-07-18T12:03:26Z)
Randomized Stochastic Variance-Reduced Methods for Stochastic Bilevel Optimization [62.87181271021217]
機械学習に多くの応用がある非SBO問題を考察する。本稿では,非SBO問題に対する高速ランダム化アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-05T18:28:42Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
FANOK: Knockoffs in Linear Time [73.5154025911318]
本稿では,ガウスモデル-Xノックオフを効率的に実装し,大規模特徴選択問題における誤発見率を制御するアルゴリズムについて述べる。当社のメソッドは、最大50,000ドルという問題でテストしています。
論文参考訳（メタデータ） (2020-06-15T21:55:34Z)
Stochastic Proximal Gradient Algorithm with Minibatches. Application to Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文参考訳（メタデータ） (2020-03-30T10:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。