論文の概要: Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling
- arxiv url: http://arxiv.org/abs/2306.09554v1
- Date: Thu, 15 Jun 2023 23:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:27:53.209047
- Title: Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling
- Title(参考訳): オンライン感度サンプリングによる低スイッチ政策勾配の探索
- Authors: Yunfan Li, Yiran Wang, Yu Cheng, Lin Yang
- Abstract要約: 一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
- 参考スコア(独自算出の注目度): 23.989009116398208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy optimization methods are powerful algorithms in Reinforcement Learning
(RL) for their flexibility to deal with policy parameterization and ability to
handle model misspecification. However, these methods usually suffer from slow
convergence rates and poor sample complexity. Hence it is important to design
provably sample efficient algorithms for policy optimization. Yet, recent
advances for this problems have only been successful in tabular and linear
setting, whose benign structures cannot be generalized to non-linearly
parameterized policies. In this paper, we address this problem by leveraging
recent advances in value-based algorithms, including bounded eluder-dimension
and online sensitivity sampling, to design a low-switching sample-efficient
policy optimization algorithm, LPO, with general non-linear function
approximation. We show that, our algorithm obtains an $\varepsilon$-optimal
policy with only $\widetilde{O}(\frac{\text{poly}(d)}{\varepsilon^3})$ samples,
where $\varepsilon$ is the suboptimality gap and $d$ is a complexity measure of
the function class approximating the policy. This drastically improves
previously best-known sample bound for policy optimization algorithms,
$\widetilde{O}(\frac{\text{poly}(d)}{\varepsilon^8})$. Moreover, we empirically
test our theory with deep neural nets to show the benefits of the theoretical
inspiration.
- Abstract(参考訳): ポリシー最適化手法は強化学習(rl)における強力なアルゴリズムであり、ポリシーパラメータ化やモデルの誤特定を扱う能力を扱う柔軟性がある。
しかしながら、これらの手法は通常、緩やかな収束率とサンプルの複雑さに悩まされる。
したがって、政策最適化のための効率の良いアルゴリズムを立案することが重要である。
しかし、この問題の最近の進歩は、非線型パラメータ化ポリシーに良性構造を一般化できないような表や線形設定においてのみ成功した。
本稿では, 一般非線形関数近似を用いた低スイッチングサンプル効率最適化アルゴリズム LPO を設計するために, 有界エレーダ次元とオンライン感度サンプリングを含む近年の値ベースアルゴリズムの進歩を活用して, この問題に対処する。
我々のアルゴリズムは、$\widetilde{o}(\frac{\text{poly}(d)}{\varepsilon^3})$サンプルしか持たない$\varepsilon$-optimalポリシーを得ることができ、ここで$\varepsilon$は準最適ギャップであり、$d$はポリシーを近似する関数クラスの複雑性測度である。
これは、ポリシー最適化アルゴリズムの最もよく知られたサンプルバウンドである$\widetilde{o}(\frac{\text{poly}(d)}{\varepsilon^8})$を大幅に改善する。
さらに,この理論をディープニューラルネットを用いて実験的に検証し,理論的なインスピレーションの利点を示す。
関連論文リスト
- Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL [23.957148537567146]
本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
論文 参考訳(メタデータ) (2023-05-18T15:19:26Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。