論文の概要: Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage
- arxiv url: http://arxiv.org/abs/2107.06226v1
- Date: Tue, 13 Jul 2021 16:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 15:59:29.395164
- Title: Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage
- Title(参考訳): 悲観的モデルベースオフラインRL:PAC境界と部分被覆下での後方サンプリング
- Authors: Masatoshi Uehara, Wen Sun
- Abstract要約: 一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。
本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 33.766012922307084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study model-based offline Reinforcement Learning with general function
approximation. We present an algorithm named Constrained Pessimistic Policy
Optimization (CPPO) which leverages a general function class and uses a
constraint to encode pessimism. Under the assumption that the ground truth
model belongs to our function class, CPPO can learn with the offline data only
providing partial coverage, i.e., it can learn a policy that completes against
any policy that is covered by the offline data, in polynomial sample complexity
with respect to the statistical complexity of the function class. We then
demonstrate that this algorithmic framework can be applied to many specialized
Markov Decision Processes where the additional structural assumptions can
further refine the concept of partial coverage. One notable example is low-rank
MDP with representation learning where the partial coverage is defined using
the concept of relative condition number measured by the underlying unknown
ground truth feature representation. Finally, we introduce and study the
Bayesian setting in offline RL. The key benefit of Bayesian offline RL is that
algorithmically, we do not need to explicitly construct pessimism or reward
penalty which could be hard beyond models with linear structures. We present a
posterior sampling-based incremental policy optimization algorithm (PS-PO)
which proceeds by iteratively sampling a model from the posterior distribution
and performing one-step incremental policy optimization inside the sampled
model. Theoretically, in expectation with respect to the prior distribution,
PS-PO can learn a near optimal policy under partial coverage with polynomial
sample complexity.
- Abstract(参考訳): 汎用関数近似を用いたモデルベースオフライン強化学習について検討した。
本稿では,一般関数クラスを利用してペシミズムを符号化する制約付き悲観的政策最適化(cppo)というアルゴリズムを提案する。
基底真理モデルが我々の関数クラスに属するという仮定の下で、CPPOは、部分的カバレッジのみを提供するオフラインデータ、すなわち、関数クラスの統計的複雑さに関する多項式サンプル複雑性において、オフラインデータによってカバーされるポリシーに対して完全なポリシーを学ぶことができる。
そして、このアルゴリズムの枠組みが多くの特殊なマルコフ決定プロセスに適用できることを示し、そこでは構造的仮定が部分的カバレッジの概念をさらに洗練することができる。
1つの顕著な例は、表現学習を伴う低ランク MDP であり、その部分的カバレッジは、基礎となる未知の基底的真理特徴表現によって測定される相対的条件数の概念を用いて定義される。
最後に、オフラインRLにおけるベイズの設定を紹介し、研究する。
ベイズ的オフラインRLの重要な利点は、アルゴリズム的に、線形構造を持つモデルを超えて難しいペシミズムや報酬のペナルティを明示的に構築する必要はないことである。
本稿では,後方分布からモデルを反復的にサンプリングし,サンプルモデル内で1段階の漸進的ポリシー最適化を行うことにより,後続サンプリングに基づく漸進的ポリシー最適化アルゴリズム(ps-po)を提案する。
理論的には、PS-POは以前の分布に期待して、多項式サンプルの複雑さを伴う部分的カバレッジの下で、ほぼ最適なポリシーを学ぶことができる。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。