論文の概要: Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
- arxiv url: http://arxiv.org/abs/2305.09659v1
- Date: Tue, 16 May 2023 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:33:05.939934
- Title: Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
- Title(参考訳): double pessimismは分散的ロバストなオフライン強化学習に有効である:ジェネリックアルゴリズムとロバスト部分カバレッジ
- Authors: Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong
- Abstract要約: 分散ロバストオフライン強化学習(ロバストオフラインRL)について検討する。
本稿では,アンダーラインモデルに基づくアンダーラインモデルに基づくアンダーライン最適化手法を提案する。
- 参考スコア(独自算出の注目度): 10.71574687153083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study distributionally robust offline reinforcement learning (robust
offline RL), which seeks to find an optimal robust policy purely from an
offline dataset that can perform well in perturbed environments. We propose a
generic algorithm framework \underline{D}oubly \underline{P}essimistic
\underline{M}odel-based \underline{P}olicy \underline{O}ptimization
($\texttt{P}^2\texttt{MPO}$) for robust offline RL, which features a novel
combination of a flexible model estimation subroutine and a doubly pessimistic
policy optimization step. The \emph{double pessimism} principle is crucial to
overcome the distributional shift incurred by i) the mismatch between behavior
policy and the family of target policies; and ii) the perturbation of the
nominal model. Under certain accuracy assumptions on the model estimation
subroutine, we show that $\texttt{P}^2\texttt{MPO}$ is provably efficient with
\emph{robust partial coverage data}, which means that the offline dataset has
good coverage of the distributions induced by the optimal robust policy and
perturbed models around the nominal model. By tailoring specific model
estimation subroutines for concrete examples including tabular Robust Markov
Decision Process (RMDP), factored RMDP, and RMDP with kernel and neural
function approximations, we show that $\texttt{P}^2\texttt{MPO}$ enjoys a
$\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the number of
trajectories in the offline dataset. Notably, these models, except for the
tabular case, are first identified and proven tractable by this paper. To the
best of our knowledge, we first propose a general learning principle -- double
pessimism -- for robust offline RL and show that it is provably efficient in
the context of general function approximations.
- Abstract(参考訳): 本研究では, 分散ロバストなオフライン強化学習(ロバストなオフラインRL)について検討し, 摂動環境において良好に動作可能なオフラインデータセットから, 最適ロバストなポリシを求める。
我々は、ロバストなオフラインRLのための汎用アルゴリズムフレームワーク \underline{D}oubly \underline{P}essimistic \underline{M}odel-based \underline{P}olicy \underline{O}ptimization ($\texttt{P}^2\texttt{MPO}$)を提案する。
emph{double pessimism}原理は、引き起こされる分布シフトを克服するために重要である
一 行動方針と対象政策の家族とのミスマッチ
二 名目モデルの摂動
モデル推定サブルーチンにおける一定の精度の仮定の下では、$\texttt{p}^2\texttt{mpo}$ は \emph{robust partial coverage data} で確実に効率的であることが示されている。
具体的な例として,表計算式Robust Markov Decision Process (RMDP),ファクタードRMDP,RMDPなどのモデル推定サブルーチンをカーネルおよび神経関数近似で調整することにより,$\texttt{P}^2\texttt{MPO}$が$\tilde{\mathcal{O}}(n^{-1/2})$収束率で,$n$がオフラインデータセットのトラジェクトリ数であることを示す。
特に、これらのモデルは表の場合を除いて最初に同定され、この論文で証明できる。
まず,ロバストなオフラインRLのための一般学習原理(二重悲観主義)を提案し,一般関数近似の文脈で有効であることを示す。
関連論文リスト
- Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文 参考訳(メタデータ) (2024-05-08T23:52:37Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。