論文の概要: Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.11566v1
- Date: Wed, 23 Feb 2022 15:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:46:40.699602
- Title: Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning
- Title(参考訳): 不確実性駆動オフライン強化学習のための悲観的ブートストラップ
- Authors: Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhihong Deng, Animesh Garg,
Peng Liu, Zhaoran Wang
- Abstract要約: オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
- 参考スコア(独自算出の注目度): 125.8224674893018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) aims to learn policies from previously
collected datasets without exploring the environment. Directly applying
off-policy algorithms to offline RL usually fails due to the extrapolation
error caused by the out-of-distribution (OOD) actions. Previous methods tackle
such problem by penalizing the Q-values of OOD actions or constraining the
trained policy to be close to the behavior policy. Nevertheless, such methods
typically prevent the generalization of value functions beyond the offline data
and also lack precise characterization of OOD data. In this paper, we propose
Pessimistic Bootstrapping for offline RL (PBRL), a purely uncertainty-driven
offline algorithm without explicit policy constraints. Specifically, PBRL
conducts uncertainty quantification via the disagreement of bootstrapped
Q-functions, and performs pessimistic updates by penalizing the value function
based on the estimated uncertainty. To tackle the extrapolating error, we
further propose a novel OOD sampling method. We show that such OOD sampling and
pessimistic bootstrapping yields provable uncertainty quantifier in linear
MDPs, thus providing the theoretical underpinning for PBRL. Extensive
experiments on D4RL benchmark show that PBRL has better performance compared to
the state-of-the-art algorithms.
- Abstract(参考訳): オフライン強化学習(rl)は、環境を探索することなく、以前収集したデータセットからポリシーを学ぶことを目的としている。
オフラインrlにオフポリシーアルゴリズムを直接適用することは、通常、out-of-distribution (ood) アクションによって引き起こされる外挿エラーのために失敗する。
従来の手法では、oodアクションのq値のペナルティを課したり、トレーニングされたポリシーを行動ポリシーに近いものに制限したりすることでこの問題に取り組む。
しかしながら、そのような手法は、通常、オフラインデータを超えた値関数の一般化を防ぎ、OODデータの正確な特徴を欠いている。
本稿では,ポリシ制約のない純粋不確実性駆動オフラインアルゴリズムであるオフラインrl(pbrl)の悲観的ブートストラップを提案する。
具体的には、自己ストラップ付きQ-関数の不一致による不確実性の定量化を行い、推定された不確実性に基づいて値関数をペナリゼーションすることで悲観的な更新を行う。
さらに,外挿誤差に対処するため,新しいOODサンプリング手法を提案する。
このようなOODサンプリングと悲観的ブートストラッピングは線形MDPにおいて証明可能な不確実性定量化器となり,PBRLの理論的基盤となることを示す。
D4RLベンチマークの大規模な実験により、PBRLは最先端のアルゴリズムよりも優れた性能を示している。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation [38.95482624075353]
爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
論文 参考訳(メタデータ) (2022-10-19T11:22:36Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。