論文の概要: Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models
- arxiv url: http://arxiv.org/abs/2003.13332v1
- Date: Mon, 30 Mar 2020 10:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:26:33.438534
- Title: Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models
- Title(参考訳): ミニバッチを用いた確率的近似勾配アルゴリズム
大規模学習モデルへの応用
- Authors: Andrei Patrascu, Ciprian Paduraru, Paul Irofti
- Abstract要約: 非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
- 参考スコア(独自算出の注目度): 2.384873896423002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimization lies at the core of most statistical learning models.
The recent great development of stochastic algorithmic tools focused
significantly onto proximal gradient iterations, in order to find an efficient
approach for nonsmooth (composite) population risk functions. The complexity of
finding optimal predictors by minimizing regularized risk is largely understood
for simple regularizations such as $\ell_1/\ell_2$ norms. However, more complex
properties desired for the predictor necessitates highly difficult regularizers
as used in grouped lasso or graph trend filtering. In this chapter we develop
and analyze minibatch variants of stochastic proximal gradient algorithm for
general composite objective functions with stochastic nonsmooth components. We
provide iteration complexity for constant and variable stepsize policies
obtaining that, for minibatch size $N$, after
$\mathcal{O}(\frac{1}{N\epsilon})$ iterations $\epsilon-$suboptimality is
attained in expected quadratic distance to optimal solution. The numerical
tests on $\ell_2-$regularized SVMs and parametric sparse representation
problems confirm the theoretical behaviour and surpasses minibatch SGD
performance.
- Abstract(参考訳): 確率的最適化は、ほとんどの統計学習モデルの中核にある。
最近の確率的アルゴリズムツールの偉大な開発は、非スムース(複合的)人口リスク関数の効率的なアプローチを見つけるために、近位勾配の反復にかなり焦点をあてた。
正規化リスクを最小化することで最適な予測器を見つける複雑さは、$\ell_1/\ell_2$ ノルムのような単純な正規化でほとんど理解されている。
しかし、予測器に望ましいより複雑な特性は、ラッソ群やグラフトレンドフィルタリングで使われる非常に難しい正規化器を必要とする。
本章では,確率的非滑らか成分を含む一般合成目的関数に対する確率的近位勾配アルゴリズムのミニバッチ変種を開発し,解析する。
我々は、最小バッチサイズ$N$に対して、$\mathcal{O}(\frac{1}{N\epsilon})$ iterations $\epsilon-$suboptimality が最適解に対する期待2次距離で達成されるという、定数および可変段数ポリシーの反復複雑性を提供する。
$\ell_2-$regularized SVMとパラメトリックスパース表現問題に関する数値実験は、理論的挙動を確認し、ミニバッチSGD性能を上回る。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Random Scaling and Momentum for Non-smooth Non-convex Optimization [38.443430569753026]
ニューラルネットワークのトレーニングには、非常に不規則な、特に凸や滑らかな損失関数が必要である。
一般的なトレーニングアルゴリズムは運動量による勾配降下(SGDM)に基づいており、損失が凸あるいは滑らかである場合にのみ解析が適用される。
論文 参考訳(メタデータ) (2024-05-16T00:52:03Z) - Nonconvex Stochastic Bregman Proximal Gradient Method for Nonconvex Composite Problems [9.202586157819693]
非合成対象関数の勾配法は、典型的には微分可能部分のリプシッツ滑らかさに依存する。
非目的の非Lipschitz勾配を扱う近似モデルを提案する。
ステップ選択感度の観点から最適なロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms
for Stochastic Shortest Path [29.289190242826688]
本稿では,最短経路(SSP)モデルにおいて,後悔するアルゴリズムを開発するための汎用テンプレートを提案する。
まず、厳密な正のコストでモデルフリーとミニマックス最適の2つの新しいアルゴリズムを開発する。
どちらのアルゴリズムも高度にスパースな更新を認めており、既存のアルゴリズムよりも計算効率が良い。
論文 参考訳(メタデータ) (2021-06-15T19:15:17Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Stochastic Multi-level Composition Optimization Algorithms with
Level-Independent Convergence Rates [12.783783498844022]
目的関数が$T$関数のネスト合成であるような,スムーズな多層合成最適化問題について検討する。
citeGhaRuswan20を$T$のレベルで一般化した最初のアルゴリズムは、$mathcalO (1/epsilon$6) のサンプル複雑性を実現することができることを示す。
これは、(アン)マルチレベル設定のために設計されたオンラインアルゴリズムが、標準仮定の下で同じサンプル複雑性を得るのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-24T15:57:50Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。