論文の概要: Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL
- arxiv url: http://arxiv.org/abs/2305.11032v2
- Date: Mon, 4 Dec 2023 02:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:30:17.855435
- Title: Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL
- Title(参考訳): 最適自然政策グラディエント:オンラインRLのためのシンプルな効率的な政策最適化フレームワーク
- Authors: Qinghua Liu, Gell\'ert Weisz, Andr\'as Gy\"orgy, Chi Jin, Csaba
Szepesv\'ari
- Abstract要約: 本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
- 参考スコア(独自算出の注目度): 23.957148537567146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While policy optimization algorithms have played an important role in recent
empirical success of Reinforcement Learning (RL), the existing theoretical
understanding of policy optimization remains rather limited -- they are either
restricted to tabular MDPs or suffer from highly suboptimal sample complexity,
especial in online RL where exploration is necessary. This paper proposes a
simple efficient policy optimization framework -- Optimistic NPG for online RL.
Optimistic NPG can be viewed as a simple combination of the classic natural
policy gradient (NPG) algorithm [Kakade, 2001] with optimistic policy
evaluation subroutines to encourage exploration. For $d$-dimensional linear
MDPs, Optimistic NPG is computationally efficient, and learns an
$\varepsilon$-optimal policy within $\tilde{O}(d^2/\varepsilon^3)$ samples,
which is the first computationally efficient algorithm whose sample complexity
has the optimal dimension dependence $\tilde{\Theta}(d^2)$. It also improves
over state-of-the-art results of policy optimization algorithms [Zanette et
al., 2021] by a factor of $d$. In the realm of general function approximation,
which subsumes linear MDPs, Optimistic NPG, to our best knowledge, stands as
the first policy optimization algorithm that achieves polynomial sample
complexity for learning near-optimal policies.
- Abstract(参考訳): 政策最適化アルゴリズムは、近年の強化学習(RL)の実証的成功において重要な役割を担っているが、既存の理論的な政策最適化の理解は、表向きのMDPに限定されるか、探索が必要なオンラインRLにおいて非常に最適なサンプル複雑さに悩まされている。
楽観的npgは、従来の自然政策勾配 (npg) アルゴリズム [kakade, 2001] と楽観的政策評価サブルーチンの単純な組み合わせと見なすことができ、探索を促進する。
$d$次元線形 MDP に対して、Optimistic NPG は計算効率が高く、$\tilde{O}(d^2/\varepsilon^3)$サンプル内で$\varepsilon$-Optimal Policy を学ぶ。
また、政策最適化アルゴリズム[Zanette et al., 2021]の最先端の結果を$d$の係数で改善する。
線形 MDP を最良知識として仮定する一般関数近似の分野では、最適化NPG は、多項式サンプルの複雑さを最大に近いポリシーを学ぶための最初のポリシー最適化アルゴリズムである。
関連論文リスト
- Scalable Online Exploration via Coverability [51.32148652451376]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。