論文の概要: Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble
- arxiv url: http://arxiv.org/abs/2110.01548v2
- Date: Tue, 5 Oct 2021 05:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 10:50:09.555283
- Title: Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble
- Title(参考訳): 多様性Qアンサンブルを用いた不確実性に基づくオフライン強化学習
- Authors: Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song
- Abstract要約: 本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
- 参考スコア(独自算出の注目度): 16.92791301062903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (offline RL), which aims to find an optimal
policy from a previously collected static dataset, bears algorithmic
difficulties due to function approximation errors from out-of-distribution
(OOD) data points. To this end, offline RL algorithms adopt either a constraint
or a penalty term that explicitly guides the policy to stay close to the given
dataset. However, prior methods typically require accurate estimation of the
behavior policy or sampling from OOD data points, which themselves can be a
non-trivial problem. Moreover, these methods under-utilize the generalization
ability of deep neural networks and often fall into suboptimal solutions too
close to the given dataset. In this work, we propose an uncertainty-based
offline RL method that takes into account the confidence of the Q-value
prediction and does not require any estimation or sampling of the data
distribution. We show that the clipped Q-learning, a technique widely used in
online RL, can be leveraged to successfully penalize OOD data points with high
prediction uncertainties. Surprisingly, we find that it is possible to
substantially outperform existing offline RL methods on various tasks by simply
increasing the number of Q-networks along with the clipped Q-learning. Based on
this observation, we propose an ensemble-diversified actor-critic algorithm
that reduces the number of required ensemble networks down to a tenth compared
to the naive ensemble while achieving state-of-the-art performance on most of
the D4RL benchmarks considered.
- Abstract(参考訳): オフライン強化学習(オフラインRL)は、以前に収集した静的データセットから最適なポリシーを見つけることを目的としており、オフ・オブ・ディストリビューション(OOD)データポイントからの関数近似誤差によるアルゴリズム上の困難を伴っている。
この目的のために、オフラインrlアルゴリズムは、与えられたデータセットに近づくようにポリシーを明示的に指示する制約またはペナルティ用語を採用する。
しかし、従来の手法では、行動ポリシーの正確な推定やoodデータポイントからのサンプリングが必要であり、それ自体は非自明な問題である。
さらに、これらの手法はディープニューラルネットワークの一般化能力を過小評価し、しばしば与えられたデータセットに近すぎる最適なサブ最適解に陥る。
本研究では,q値予測の信頼性を考慮し,データ分布の推定やサンプリングを必要としない,不確実性に基づくオフラインrl手法を提案する。
オンラインRLで広く使われているクリッピングQ-ラーニングは,高い予測不確実性を伴うOODデータポイントのペナルティ化に有効であることを示す。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
そこで本研究では,d4rlベンチマークのほとんどにおいて最先端性能を実現しつつ,必要なアンサンブルネットワーク数を10分の1まで削減するアンサンブル分散アクタ-クリティックアルゴリズムを提案する。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。