論文の概要: Is Pessimism Provably Efficient for Offline RL?
- arxiv url: http://arxiv.org/abs/2012.15085v1
- Date: Wed, 30 Dec 2020 09:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:07:45.886225
- Title: Is Pessimism Provably Efficient for Offline RL?
- Title(参考訳): ペシミズムはおそらくオフラインRLに有効か?
- Authors: Ying Jin, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
- 参考スコア(独自算出の注目度): 104.00628430454479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline reinforcement learning (RL), which aims to learn an optimal
policy based on a dataset collected a priori. Due to the lack of further
interactions with the environment, offline RL suffers from the insufficient
coverage of the dataset, which eludes most existing theoretical analysis. In
this paper, we propose a pessimistic variant of the value iteration algorithm
(PEVI), which incorporates an uncertainty quantifier as the penalty function.
Such a penalty function simply flips the sign of the bonus function for
promoting exploration in online RL, which makes it easily implementable and
compatible with general function approximators.
Without assuming the sufficient coverage of the dataset, we establish a
data-dependent upper bound on the suboptimality of PEVI for general Markov
decision processes (MDPs). When specialized to linear MDPs, it matches the
information-theoretic lower bound up to multiplicative factors of the dimension
and horizon. In other words, pessimism is not only provably efficient but also
minimax optimal. In particular, given the dataset, the learned policy serves as
the ``best effort'' among all policies, as no other policies can do better. Our
theoretical analysis identifies the critical role of pessimism in eliminating a
notion of spurious correlation, which emerges from the ``irrelevant''
trajectories that are less covered by the dataset and not informative for the
optimal policy.
- Abstract(参考訳): 本研究では,事前収集したデータセットに基づく最適ポリシー学習を目的としたオフライン強化学習(RL)について検討する。
環境とのさらなる相互作用が欠如しているため、オフラインのRLはデータセットのカバー不足に悩まされ、既存の理論分析を損なう。
本稿では,不確かさ量化器をペナルティ関数として組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
このようなペナルティ関数は、オンラインrlの探索を促進するためのボーナス関数の符号をひっくり返すだけで、一般的な関数近似器と容易に実装でき、互換性がある。
データセットの十分なカバレッジを仮定せずに、一般的なマルコフ決定プロセス(MDPs)に対するPEVIの最適度にデータ依存的な上限を確立する。
線形 MDP に特化する場合、情報理論の下界は次元と地平線の乗法的因子と一致する。
言い換えれば、悲観主義は証明可能な効率だけでなく、最小限の最適化でもある。
特にデータセットが与えられた場合、学習されたポリシは、他のポリシが改善できないため、すべてのポリシの中で‘ベストプラクティス’として機能します。
我々の理論的分析は, データセットによってカバーされず, 最適方針に反する「無関係」軌道から生じる, 刺激的相関の概念を排除する上で, 悲観主義が重要な役割を解明するものである。
関連論文リスト
- Pessimism in the Face of Confounders: Provably Efficient Offline
Reinforcement Learning in Partially Observable Markov Decision Processes [105.5082667181805]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning [100.78715211319016]
オフライン強化学習は、オンラインインタラクションなしで、事前に収集されたデータセットから最適なポリシーを学ぶことを目的としている。
データセットは基礎となるモデルに関する限られた情報しか含まないため、オフラインRLは急激な相関に弱い。
本稿では,不確実なペナルティを政策評価に組み込むことにより,突発的な相関を低減できる実用的で理論的に保証されたアルゴリズムSCOREを提案する。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Bridging Offline Reinforcement Learning and Imitation Learning: A Tale
of Pessimism [28.486695085946703]
オフライン強化学習(rl)アルゴリズムは、アクティブなデータ収集なしで固定データセットから最適なポリシーを学習する。
オフラインデータセットの構成に基づいて、メソッドの2つの主要なカテゴリが使用される:模倣学習とバニラオフラインRL。
データ合成の2つの極端をスムーズに補間する新しいオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。