論文の概要: The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization
- arxiv url: http://arxiv.org/abs/2006.04340v1
- Date: Mon, 8 Jun 2020 03:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:23:41.416765
- Title: The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization
- Title(参考訳): 非滑らか最適化の個別収束におけるネステロフ外挿の強さ
- Authors: W. Tao, Z. Pan, G. Wu, and Q. Tao
- Abstract要約: ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extrapolation strategy raised by Nesterov, which can accelerate the
convergence rate of gradient descent methods by orders of magnitude when
dealing with smooth convex objective, has led to tremendous success in training
machine learning tasks. In this article, the convergence of individual iterates
of projected subgradient (PSG) methods for nonsmooth convex optimization
problems is theoretically studied based on Nesterov's extrapolation, which we
name individual convergence. We prove that Nesterov's extrapolation has the
strength to make the individual convergence of PSG optimal for nonsmooth
problems. In light of this consideration, a direct modification of the
subgradient evaluation suffices to achieve optimal individual convergence for
strongly convex problems, which can be regarded as making an interesting step
toward the open question about stochastic gradient descent (SGD) posed by
Shamir. Furthermore, we give an extension of the derived algorithms to solve
regularized learning tasks with nonsmooth losses in stochastic settings.
Compared with other state-of-the-art nonsmooth methods, the derived algorithms
can serve as an alternative to the basic SGD especially in coping with machine
learning problems, where an individual output is needed to guarantee the
regularization structure while keeping an optimal rate of convergence.
Typically, our method is applicable as an efficient tool for solving
large-scale $l$1-regularized hinge-loss learning problems. Several comparison
experiments demonstrate that our individual output not only achieves an optimal
convergence rate but also guarantees better sparsity than the averaged
solution.
- Abstract(参考訳): 滑らかな凸目標を扱う場合,勾配降下法の収束率を桁違いに向上させるNesterov氏が提起した補間戦略は,機械学習タスクのトレーニングにおいて大きな成功を収めている。
本稿では,非滑らか凸最適化問題に対する射影部分勾配法 (psg) 法の個々のイテレートの収束を,nesterovの補間に基づいて理論的に研究する。
我々はネステロフの外挿がPSGの個人収束を非滑らかな問題に最適にする強さを持つことを証明する。
この考察を踏まえて、強凸問題に対する最適な個別収束を達成するために、下級評価条件の直接的修正は、シャミールが提起した確率的勾配降下(sgd)に関する公開問題への興味深い一歩であると見なされる。
さらに,確率的設定において非滑らかな損失を伴う正規化学習タスクを解くための導出アルゴリズムの拡張を与える。
他の最先端の非滑らかな手法と比較して、導出アルゴリズムは、特に機械学習問題に対処する際の基本的なSGDの代替として機能し、最適収束率を維持しながら正規化構造を保証するために個々の出力が必要である。
通常,本手法は,大規模な$l$1正規化ヒンジロス学習問題の解法として有効である。
いくつかの比較実験により、個々の出力が最適収束率を達成するだけでなく、平均解よりも優れたスパース性を保証することが示されている。
関連論文リスト
- Dealing with unbounded gradients in stochastic saddle-point optimization [9.983014605039658]
本研究では,凸凹関数のサドル点を求める一階法の性能について検討する。
悪名高い課題は、最適化中に勾配が任意に大きくなることだ。
本稿では,反復を安定化し,有意義な性能保証を与える,シンプルで効果的な正則化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T16:13:49Z) - Low-Rank Extragradient Methods for Scalable Semidefinite Optimization [0.0]
この問題が低ランクの解を許容する高次元かつ高可算な設定に焦点をあてる。
これらの条件下では、よく知られた過次法が制約付き最適化問題の解に収束することを示す理論的結果がいくつか提示される。
論文 参考訳(メタデータ) (2024-02-14T10:48:00Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Linearization Algorithms for Fully Composite Optimization [61.20539085730636]
本稿では,完全合成最適化問題を凸コンパクト集合で解くための一階アルゴリズムについて検討する。
微分可能および非微分可能を別々に扱い、滑らかな部分のみを線形化することで目的の構造を利用する。
論文 参考訳(メタデータ) (2023-02-24T18:41:48Z) - Versatile Single-Loop Method for Gradient Estimator: First and Second
Order Optimality, and its Application to Federated Learning [45.78238792836363]
本稿では,SLEDGE (Single-Loop-E Gradient Estimator) という単一ループアルゴリズムを提案する。
既存の手法とは異なり、SLEDGEは、(ii)2階最適、(ii)PL領域における、(iii)少ないデータ以下の複雑さの利点を持つ。
論文 参考訳(メタデータ) (2022-09-01T11:05:26Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex
Optimization [15.731908248435348]
強凸の場合の勾配降下平均化と主双進平均化アルゴリズムを開発する。
一次二重平均化は出力平均化の観点から最適な収束率を導出し、SC-PDAは最適な個々の収束を導出する。
SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正確性とアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2020-12-29T01:40:30Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。