論文の概要: A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.10951v1
- Date: Fri, 21 Apr 2023 13:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:43:36.702507
- Title: A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning
- Title(参考訳): 強化学習のための立方体正規化ポリシーニュートンアルゴリズム
- Authors: Mizhaan Prajit Maniyar, Akash Mondal, Prashanth L.A., Shalabh
Bhatnagar
- Abstract要約: 立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
- 参考スコア(独自算出の注目度): 9.628032156001073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of control in the setting of reinforcement learning
(RL), where model information is not available. Policy gradient algorithms are
a popular solution approach for this problem and are usually shown to converge
to a stationary point of the value function. In this paper, we propose two
policy Newton algorithms that incorporate cubic regularization. Both algorithms
employ the likelihood ratio method to form estimates of the gradient and
Hessian of the value function using sample trajectories. The first algorithm
requires an exact solution of the cubic regularized problem in each iteration,
while the second algorithm employs an efficient gradient descent-based
approximation to the cubic regularized problem. We establish convergence of our
proposed algorithms to a second-order stationary point (SOSP) of the value
function, which results in the avoidance of traps in the form of saddle points.
In particular, the sample complexity of our algorithms to find an
$\epsilon$-SOSP is $O(\epsilon^{-3.5})$, which is an improvement over the
state-of-the-art sample complexity of $O(\epsilon^{-4.5})$.
- Abstract(参考訳): モデル情報が得られない強化学習(RL)の設定における制御の問題を考える。
ポリシー勾配アルゴリズムはこの問題に対する一般的な解法であり、通常は値関数の定常点に収束することが示される。
本稿では,立方正則化を組み込んだ2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも、サンプル軌跡を用いて値関数の勾配とヘッシアンの推定値を形成するためにラピッド比法を用いる。
第1のアルゴリズムは各繰り返しにおける立方正規化問題の正確な解を必要とし、第2のアルゴリズムは立方正規化問題に対する効率的な勾配降下に基づく近似を用いる。
本研究では,提案アルゴリズムを値関数の2次定常点(SOSP)に収束させることにより,サドル点の形でのトラップ回避を実現する。
特に、$\epsilon$-SOSPを求めるアルゴリズムのサンプル複雑性は$O(\epsilon^{-3.5})$であり、これは最先端のサンプル複雑性の$O(\epsilon^{-4.5})$よりも改善されている。
関連論文リスト
- Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - Stochastic Dimension-reduced Second-order Methods for Policy
Optimization [11.19708535159457]
各イテレーションにおいて勾配とヘシアンベクトル積のみを必要とするポリシー最適化のための新しい2次アルゴリズムを提案する。
具体的には、投影された2次元信頼領域のサブプロブレムを繰り返す次元還元二階法(DR-SOPO)を提案する。
DR-SOPOはおよそ1次定常状態に到達するために$mathcalO(epsilon-3.5)$の複雑さが得られることを示す。
さらに,拡張アルゴリズム (DVR-SOPO) を提案する。
論文 参考訳(メタデータ) (2023-01-28T12:09:58Z) - PROMPT: Parallel Iterative Algorithm for $\ell_{p}$ norm linear
regression via Majorization Minimization with an application to
semi-supervised graph learning [0.0]
スパースリカバリ,データクラスタリング,半教師付き学習など,いくつかの応用がある。
我々は、MajolizaTion Minimization (PROMPT)による$ell_P$ノルム回帰のための並列反復AlgOrithMを提案する。
論文 参考訳(メタデータ) (2021-10-23T10:19:11Z) - An algorithmic view of $\ell_2$ regularization and some path-following
algorithms [7.6146285961466]
凸損失関数に対する$ell$-regularized Solution pathと通常の微分方程式(ODE)の解との等価性を確立する。
この等価性は、溶液経路を勾配降下のハイブリッドの流れと見なすことができ、ニュートン法は経験的損失に適用できることを示した。
ホモトピー法と数値ODE解法に基づく新しい経路追従アルゴリズムを提案し,解経路を数値的に近似する。
論文 参考訳(メタデータ) (2021-07-07T16:00:13Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Sample Complexity Bounds for Two Timescale Value-based Reinforcement
Learning Algorithms [65.09383385484007]
2つの時間スケール近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。
本稿では,2つの時間スケール線形および非線形TDCとGreedy-GQアルゴリズムの漸近収束率について検討する。
論文 参考訳(メタデータ) (2020-11-10T11:36:30Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z) - Second-order Conditional Gradient Sliding [79.66739383117232]
本稿では,emphSecond-Order Conditional Gradient Sliding (SOCGS)アルゴリズムを提案する。
SOCGSアルゴリズムは、有限個の線形収束反復の後、原始ギャップに二次的に収束する。
実現可能な領域が線形最適化オラクルを通してのみ効率的にアクセスできる場合に有用である。
論文 参考訳(メタデータ) (2020-02-20T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。