論文の概要: Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.08140v1
- Date: Mon, 17 May 2021 20:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 13:55:52.703558
- Title: Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための不確かさ重み付きアクタークリティカル
- Authors: Yue Wu, Shuangfei Zhai, Nitish Srivastava, Joshua Susskind, Jian
Zhang, Ruslan Salakhutdinov, Hanlin Goh
- Abstract要約: オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
- 参考スコア(独自算出の注目度): 63.53407136812255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning promises to learn effective policies from
previously-collected, static datasets without the need for exploration.
However, existing Q-learning and actor-critic based off-policy RL algorithms
fail when bootstrapping from out-of-distribution (OOD) actions or states. We
hypothesize that a key missing ingredient from the existing methods is a proper
treatment of uncertainty in the offline setting. We propose Uncertainty
Weighted Actor-Critic (UWAC), an algorithm that detects OOD state-action pairs
and down-weights their contribution in the training objectives accordingly.
Implementation-wise, we adopt a practical and effective dropout-based
uncertainty estimation method that introduces very little overhead over
existing RL algorithms. Empirically, we observe that UWAC substantially
improves model stability during training. In addition, UWAC out-performs
existing offline RL methods on a variety of competitive tasks, and achieves
significant performance gains over the state-of-the-art baseline on datasets
with sparse demonstrations collected from human experts.
- Abstract(参考訳): オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
しかし、既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からブートストラップすると失敗する。
既存の手法から欠落した重要な要素は,オフライン環境における不確実性の適切な処理であると仮定する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
実装面では,既存のRLアルゴリズムのオーバーヘッドが少なく,実用的で効果的なドロップアウトに基づく不確実性推定手法を採用する。
経験的に、UWACはトレーニング中のモデルの安定性を大幅に改善する。
加えて、UWACは、さまざまな競争上のタスクにおいて既存のオフラインRLメソッドよりも優れており、人間の専門家が収集したスパースなデモを伴うデータセットの最先端のベースラインよりも大きなパフォーマンス向上を実現している。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Understanding and Addressing the Pitfalls of Bisimulation-based
Representations in Offline Reinforcement Learning [34.66035026036424]
オンライン環境においてバイシミュレーション手法が成功する理由を理解することを目的としているが、オフラインタスクではフェールする。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であることが判明した。
提案手法は、MICoとSimSRの2つの最先端バイシミュレーションに基づくアルゴリズムに実装する。
論文 参考訳(メタデータ) (2023-10-26T04:20:55Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。