論文の概要: SP2: A Second Order Stochastic Polyak Method
- arxiv url: http://arxiv.org/abs/2207.08171v1
- Date: Sun, 17 Jul 2022 13:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:19:47.394475
- Title: SP2: A Second Order Stochastic Polyak Method
- Title(参考訳): SP2: 2次確率的ポリアーク法
- Authors: Shuang Li, William J. Swartworth, Martin Tak\'a\v{c}, Deanna Needell,
Robert M. Gower
- Abstract要約: ステップサイズを設定するための競争適応手法として,SP法(Stochastic Polyak step size)が登場した。
SP2は、完成度、ロジスティクステストの問題に非常に競争力があることを示します。
- 参考スコア(独自算出の注目度): 15.565294169697076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently the "SP" (Stochastic Polyak step size) method has emerged as a
competitive adaptive method for setting the step sizes of SGD. SP can be
interpreted as a method specialized to interpolated models, since it solves the
interpolation equations. SP solves these equation by using local linearizations
of the model. We take a step further and develop a method for solving the
interpolation equations that uses the local second-order approximation of the
model. Our resulting method SP2 uses Hessian-vector products to speed-up the
convergence of SP. Furthermore, and rather uniquely among second-order methods,
the design of SP2 in no way relies on positive definite Hessian matrices or
convexity of the objective function. We show SP2 is very competitive on matrix
completion, non-convex test problems and logistic regression. We also provide a
convergence theory on sums-of-quadratics.
- Abstract(参考訳): 近年、SGDのステップサイズを設定するための競争適応手法としてSP法(Stochastic Polyak step size)が登場している。
SPは補間方程式を解くため補間モデルに特化した方法として解釈できる。
SP はモデルの局所線型化を用いてこれらの方程式を解く。
さらに,モデルの局所的な二階近似を用いた補間方程式の解法を開発した。
得られた手法SP2はヘッセンベクトル積を用いてSPの収束を高速化する。
さらに、二階法の中でもむしろ一意的に、SP2 の設計は正定値のヘッセン行列や目的関数の凸性に依存しない。
我々は,SP2が行列補完,非凸テスト問題,ロジスティック回帰に非常に競合することを示した。
また、二次和に関する収束理論も提供する。
関連論文リスト
- Fast Convergence of Softmax Policy Mirror Ascent [11.540610656150958]
自然ポリシー勾配 (NPG) は共通ポリシー最適化アルゴリズムであり、確率空間におけるミラー上昇と見なすことができる。
我々はこのアルゴリズムを改良し、アクション間の正規化の必要性を排除し、結果の方法を分析する(SPMA参照)。
論文 参考訳(メタデータ) (2024-11-18T20:27:13Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。
本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-11-03T04:42:51Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。