論文の概要: Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
- arxiv url: http://arxiv.org/abs/2305.09659v2
- Date: Tue, 22 Aug 2023 14:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:01:45.068823
- Title: Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
- Title(参考訳): double pessimismは分散的ロバストなオフライン強化学習に有効である:ジェネリックアルゴリズムとロバスト部分カバレッジ
- Authors: Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong
- Abstract要約: 頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
- 参考スコア(独自算出の注目度): 15.858892479232656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study distributionally robust offline reinforcement
learning (robust offline RL), which seeks to find an optimal policy purely from
an offline dataset that can perform well in perturbed environments. In
specific, we propose a generic algorithm framework called Doubly Pessimistic
Model-based Policy Optimization ($P^2MPO$), which features a novel combination
of a flexible model estimation subroutine and a doubly pessimistic policy
optimization step. Notably, the double pessimism principle is crucial to
overcome the distributional shifts incurred by (i) the mismatch between the
behavior policy and the target policies; and (ii) the perturbation of the
nominal model. Under certain accuracy conditions on the model estimation
subroutine, we prove that $P^2MPO$ is sample-efficient with robust partial
coverage data, which only requires the offline data to have good coverage of
the distributions induced by the optimal robust policy and the perturbed models
around the nominal model.
By tailoring specific model estimation subroutines for concrete examples of
RMDPs, including tabular RMDPs, factored RMDPs, kernel and neural RMDPs, we
prove that $P^2MPO$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate,
where $n$ is the dataset size. We highlight that all these examples, except
tabular RMDPs, are first identified and proven tractable by this work.
Furthermore, we continue our study of robust offline RL in the robust Markov
games (RMGs). By extending the double pessimism principle identified for
single-agent RMDPs, we propose another algorithm framework that can efficiently
find the robust Nash equilibria among players using only robust unilateral
(partial) coverage data. To our best knowledge, this work proposes the first
general learning principle -- double pessimism -- for robust offline RL and
shows that it is provably efficient with general function approximation.
- Abstract(参考訳): 本稿では,分散的に堅牢なオフライン強化学習(robust offline rl)について検討する。
具体的には、フレキシブルモデル推定サブルーチンと2つの悲観的ポリシー最適化ステップを組み合わせた、Double Pessimistic Model-based Policy Optimization(P^2MPO$)という汎用アルゴリズムフレームワークを提案する。
特に、二重悲観主義原理は、引き起こされる分布シフトを克服するために重要である。
(i)行動方針と対象政策のミスマッチ
(ii)名目モデルの摂動
モデル推定サブルーチン上の一定の精度条件の下では、$p^2mpo$ はロバストな部分被覆データでサンプル効率が良く、オフラインデータは最適ロバストポリシーと名目モデル周辺の摂動モデルによって引き起こされる分布を適切にカバーすることが要求される。
表式RMDP, 因子RMDP, カーネル, ニューラルRMDPなど, RMDPの具体的な例として, 特定のモデル推定サブルーチンを調整することにより, $P^2MPO$が$\tilde{\mathcal{O}}(n^{-1/2})$収束率で、$n$がデータセットサイズであることを示す。
これらの例は、表付きRMDPを除いて、この研究によって最初に同定され、証明可能であることを強調する。
さらに、ロバストマルコフゲーム(RMG)におけるロバストオフラインRLの研究も継続する。
単一エージェントRMDPで特定される二重悲観主義の原理を拡張することにより、ロバストな一方的(部分的)カバレッジデータのみを用いて、プレイヤー間の堅牢なナッシュ平衡を効率的に見つけることができる別のアルゴリズムフレームワークを提案する。
我々の知る限り、この研究は、ロバストなオフラインRLのための最初の一般学習原理である二重悲観主義を提案し、一般関数近似で証明可能な効率であることを示す。
関連論文リスト
- Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文 参考訳(メタデータ) (2024-05-08T23:52:37Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。