論文の概要: PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning
- arxiv url: http://arxiv.org/abs/2007.08459v2
- Date: Thu, 13 Aug 2020 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:46:11.658450
- Title: PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning
- Title(参考訳): PC-PG:確率的政策グラディエント学習のための方向性探索
- Authors: Alekh Agarwal, Mikael Henaff, Sham Kakade, Wen Sun
- Abstract要約: 本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
- 参考スコア(独自算出の注目度): 35.044047991893365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct policy gradient methods for reinforcement learning are a successful
approach for a variety of reasons: they are model free, they directly optimize
the performance metric of interest, and they allow for richly parameterized
policies. Their primary drawback is that, by being local in nature, they fail
to adequately explore the environment. In contrast, while model-based
approaches and Q-learning directly handle exploration through the use of
optimism, their ability to handle model misspecification and function
approximation is far less evident. This work introduces the the Policy
Cover-Policy Gradient (PC-PG) algorithm, which provably balances the
exploration vs. exploitation tradeoff using an ensemble of learned policies
(the policy cover). PC-PG enjoys polynomial sample complexity and run time for
both tabular MDPs and, more generally, linear MDPs in an infinite dimensional
RKHS. Furthermore, PC-PG also has strong guarantees under model
misspecification that go beyond the standard worst case $\ell_{\infty}$
assumptions; this includes approximation guarantees for state aggregation under
an average case error assumption, along with guarantees under a more general
assumption where the approximation error under distribution shift is
controlled. We complement the theory with empirical evaluation across a variety
of domains in both reward-free and reward-driven settings.
- Abstract(参考訳): 強化学習のための直接的なポリシー勾配法は、モデル自由であり、興味のあるパフォーマンス指標を直接最適化し、リッチなパラメータ化されたポリシーを可能にする、様々な理由で成功している。
彼らの主な欠点は、自然界において局所的であることによって、適切に環境を探索できないことである。
対照的に、モデルベースアプローチやQラーニングは楽観主義による探索を直接処理するが、モデルの誤特定や関数近似を扱う能力は明らかになっていない。
本研究は,学習された政策(政策被覆)のアンサンブルを用いて探索と搾取のトレードオフのバランスをとるための,政策カバー・ポリシー・グラデーション(pc-pg)アルゴリズムを導入する。
PC-PG は、無限次元 RKHS における表型 MDP とより一般的には線形 MDP の両方の多項式サンプル複雑性と実行時間を楽しむ。
さらに、PC-PGは、標準の最悪の場合$\ell_{\infty}$仮定を超えるようなモデルミススペクテーションの下での強い保証も備えており、これは、平均的なケースエラー仮定の下での状態アグリゲーションの近似保証と、分布シフトによる近似エラーが制御されるより一般的な仮定の下での保証を含む。
我々は、報酬のない設定と報酬駆動設定の両方において、様々なドメインにわたる経験的評価で理論を補完する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。