論文の概要: A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum
Optimization
- arxiv url: http://arxiv.org/abs/2206.06531v1
- Date: Tue, 14 Jun 2022 00:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:07:20.414212
- Title: A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum
Optimization
- Title(参考訳): 非滑らか正規化有限和最適化のための確率的近位法
- Authors: Dounia Lakhmiri and Dominique Orban and Andrea Lodi
- Abstract要約: スパースサブ構造を検索するために,非滑らかな正規化を伴うディープニューラルネットワークをトレーニングする問題を考察する。
我々は、収束と最悪のケースの複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。
CIFAR-10とCIFAR-100で訓練されたネットワークインスタンスの実験により、SR2はProxGENやProxSGDのような関連する手法よりも常に高い空間性と精度を達成することが示された。
- 参考スコア(独自算出の注目度): 7.014966911550542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of training a deep neural network with nonsmooth
regularization to retrieve a sparse and efficient sub-structure. Our
regularizer is only assumed to be lower semi-continuous and prox-bounded. We
combine an adaptive quadratic regularization approach with proximal stochastic
gradient principles to derive a new solver, called SR2, whose convergence and
worst-case complexity are established without knowledge or approximation of the
gradient's Lipschitz constant. We formulate a stopping criteria that ensures an
appropriate first-order stationarity measure converges to zero under certain
conditions. We establish a worst-case iteration complexity of
$\mathcal{O}(\epsilon^{-2})$ that matches those of related methods like
ProxGEN, where the learning rate is assumed to be related to the Lipschitz
constant. Our experiments on network instances trained on CIFAR-10 and
CIFAR-100 with $\ell_1$ and $\ell_0$ regularizations show that SR2 consistently
achieves higher sparsity and accuracy than related methods such as ProxGEN and
ProxSGD.
- Abstract(参考訳): 非滑らかな正規化で深層ニューラルネットワークをトレーニングし、スパースで効率的なサブ構造を検索する問題を考察する。
我々の正規化子は、より低い半連続かつプロキシ境界であると仮定される。
適応的な二次正則化アプローチと近確率勾配原理を組み合わせることで、収束と最悪の場合の複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。
適切な一階定常度尺度が一定の条件下でゼロに収束することを保証する停止基準を定式化する。
我々は、学習速度がリプシッツ定数と関連していると仮定されるProxGENのような関連するメソッドと一致する、$\mathcal{O}(\epsilon^{-2})$の最悪の反復複雑性を確立する。
CIFAR-10 と CIFAR-100 を $\ell_1$ と $\ell_0$ の正規化でトレーニングしたネットワークインスタンス実験により,SR2 は ProxGEN や ProxSGD などの関連手法よりも高い空間性と精度を一貫して達成できることを示した。
関連論文リスト
- Variance-reduced first-order methods for deterministically constrained stochastic nonconvex optimization with strong convergence guarantees [1.2562458634975162]
既存の方法は典型的には$epsilon$-stochasticの固定点を見つけることを目的としている。
多くの実践的応用において、制約がほぼ確実に満たされることが重要であり、そのような$epsilon$-stochasticの定常点が望ましくない可能性がある。
論文 参考訳(メタデータ) (2024-09-16T00:26:42Z) - Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient [40.22217106270146]
ばらつき低減技術はサンプリングのばらつきを低減し、一階法(FO)とゼロ階法(ZO)の収束率を向上するように設計されている。
複合最適化問題において、ZO法は、ランダム推定から導かれる座標ワイド分散と呼ばれる追加の分散に遭遇する。
本稿では,ZPDVR法とZPDVR法を提案する。
論文 参考訳(メタデータ) (2024-05-28T02:27:53Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex
Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。
本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T21:48:51Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Escaping Saddle-Points Faster under Interpolation-like Conditions [19.9471360853892]
過度なパラメータ化の下では、いくつかの標準的な最適化アルゴリズムがサドルポイントを回避し、局所最小化器に収束する。
本稿では、PSGDアルゴリズムの1次オラクル複雑性について論じ、$epsilon$ localminimizerに到達した。
次に、Cubic-Regularized Newton (SCRN)アルゴリズムのアンダーライクな条件を分析し、局所最小化剤アンダーライクな条件に到達するためのオラクルの複雑さが$tildemathcalO (1/epsilon2.5)であることを示す。
論文 参考訳(メタデータ) (2020-09-28T02:15:18Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。