論文の概要: Policy Gradient Method For Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.07344v1
- Date: Sun, 15 May 2022 17:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 04:01:29.782904
- Title: Policy Gradient Method For Robust Reinforcement Learning
- Title(参考訳): ロバスト強化学習のためのポリシー勾配法
- Authors: Yue Wang, Shaofeng Zou
- Abstract要約: 本稿では,モデルミスマッチ下での頑健な強化学習のための大域的最適性保証と複雑性解析を用いた最初のポリシー勾配法を開発した。
提案手法は, 直接的政策パラメータ化の下で, 大域的最適勾配に収束することを示す。
次に、我々の方法論を一般のモデルフリー設定に拡張し、ロバストなパラメトリックポリシークラスと値関数を設計する。
- 参考スコア(独自算出の注目度): 23.62008807533706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops the first policy gradient method with global optimality
guarantee and complexity analysis for robust reinforcement learning under model
mismatch. Robust reinforcement learning is to learn a policy robust to model
mismatch between simulator and real environment. We first develop the robust
policy (sub-)gradient, which is applicable for any differentiable parametric
policy class. We show that the proposed robust policy gradient method converges
to the global optimum asymptotically under direct policy parameterization. We
further develop a smoothed robust policy gradient method and show that to
achieve an $\epsilon$-global optimum, the complexity is $\mathcal
O(\epsilon^{-3})$. We then extend our methodology to the general model-free
setting and design the robust actor-critic method with differentiable
parametric policy class and value function. We further characterize its
asymptotic convergence and sample complexity under the tabular setting.
Finally, we provide simulation results to demonstrate the robustness of our
methods.
- Abstract(参考訳): 本稿では,モデルミスマッチ下での頑健な強化学習のための大域的最適性保証と複雑性解析を用いた最初のポリシー勾配法を開発した。
強固な強化学習は、シミュレーターと実環境のミスマッチをモデル化する強固なポリシーを学ぶことである。
まず,任意の可微分パラメトリック・ポリシークラスに適用可能なロバスト・ポリシー(サブ)グレードエントを開発した。
提案するロバストな政策勾配法は, 直接的政策パラメータ化下でグローバル最適漸近的に収束することを示す。
さらに、円滑なロバストなポリシー勾配法を開発し、$\epsilon$-globalOptimumを達成するために、複雑さは$\mathcal O(\epsilon^{-3})$であることを示す。
次に、我々の方法論を一般のモデルフリー設定に拡張し、異なるパラメトリックポリシークラスと値関数を持つロバストなアクタークリティカルな手法を設計する。
さらに,その漸近収束とサンプル複雑性を表環境下で特徴づける。
最後に,提案手法の堅牢性を示すシミュレーション結果を提供する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Quasi-Newton Iteration in Deterministic Policy Gradient [0.0]
近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。
簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
論文 参考訳(メタデータ) (2022-03-25T18:38:57Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。