Fugu-MT 論文翻訳(概要): Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes

論文の概要: Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes

arxiv url: http://arxiv.org/abs/2205.13589v1
Date: Thu, 26 May 2022 19:13:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 12:58:05.120891
Title: Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes
Title（参考訳）: 共同創設者の顔におけるペシミズム--マルコフ決定過程における効果的なオフライン強化学習の可能性
Authors: Miao Lu, Yifei Min, Zhaoran Wang, Zhuoran Yang
Abstract要約: 半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。 textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
参考スコア（独自算出の注目度）: 105.5082667181805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study offline reinforcement learning (RL) in partially observable Markov decision processes. In particular, we aim to learn an optimal policy from a dataset collected by a behavior policy which possibly depends on the latent state. Such a dataset is confounded in the sense that the latent state simultaneously affects the action and the observation, which is prohibitive for existing offline RL algorithms. To this end, we propose the \underline{P}roxy variable \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O}) algorithm, which addresses the confounding bias and the distributional shift between the optimal and behavior policies in the context of general function approximation. At the core of \texttt{P3O} is a coupled sequence of pessimistic confidence regions constructed via proximal causal inference, which is formulated as minimax estimation. Under a partial coverage assumption on the confounded dataset, we prove that \texttt{P3O} achieves a $n^{-1/2}$-suboptimality, where $n$ is the number of trajectories in the dataset. To our best knowledge, \texttt{P3O} is the first provably efficient offline RL algorithm for POMDPs with a confounded dataset.
Abstract（参考訳）: 半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。特に、潜在状態に依存する可能性のある行動ポリシーによって収集されたデータセットから最適なポリシーを学習することを目指している。このようなデータセットは、潜在状態が動作と観測に同時に影響を及ぼすという意味で、既存のオフラインrlアルゴリズムでは禁止されている。この目的のために、一般関数近似の文脈において、共役バイアスと最適と振舞いポリシーの間の分布シフトに対処する、Shaunderline{P}roxy変数 \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O})アルゴリズムを提案する。 texttt{P3O} の中核は、近位因果推論によって構築された悲観的信頼領域の結合配列であり、ミニマックス推定として定式化されている。連結データセット上の部分カバレッジ仮定の下で、\textt{p3o} が$n^{-1/2}$-suboptimality を達成することを証明し、ここで $n$ はデータセット内の軌道数である。我々の知る限り、 \texttt{P3O} はPOMDP に対して、データセットを合成した最初の証明可能なオフライン RL アルゴリズムである。

関連論文リスト

Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。 P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文参考訳（メタデータ） (2023-05-16T17:58:05Z)
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文参考訳（メタデータ） (2023-01-30T07:53:53Z)
On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文参考訳（メタデータ） (2022-11-23T18:50:44Z)
Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文参考訳（メタデータ） (2022-02-15T15:39:30Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling under Partial Coverage [33.766012922307084]
一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-13T16:30:01Z)
Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文参考訳（メタデータ） (2020-12-30T09:06:57Z)
What are the Statistical Limits of Offline RL with Linear Function Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文参考訳（メタデータ） (2020-10-22T17:32:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。