論文の概要: Regularized Behavior Value Estimation
- arxiv url: http://arxiv.org/abs/2103.09575v1
- Date: Wed, 17 Mar 2021 11:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 17:28:30.085547
- Title: Regularized Behavior Value Estimation
- Title(参考訳): 正規化行動値推定
- Authors: Caglar Gulcehre, Sergio G\'omez Colmenarejo, Ziyu Wang, Jakub
Sygnowski, Thomas Paine, Konrad Zolna, Yutian Chen, Matthew Hoffman, Razvan
Pascanu, Nando de Freitas
- Abstract要約: 正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
- 参考スコア(独自算出の注目度): 31.332929202377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning restricts the learning process to rely only on
logged-data without access to an environment. While this enables real-world
applications, it also poses unique challenges. One important challenge is
dealing with errors caused by the overestimation of values for state-action
pairs not well-covered by the training data. Due to bootstrapping, these errors
get amplified during training and can lead to divergence, thereby crippling
learning. To overcome this challenge, we introduce Regularized Behavior Value
Estimation (R-BVE). Unlike most approaches, which use policy improvement during
training, R-BVE estimates the value of the behavior policy during training and
only performs policy improvement at deployment time. Further, R-BVE uses a
ranking regularisation term that favours actions in the dataset that lead to
successful outcomes. We provide ample empirical evidence of R-BVE's
effectiveness, including state-of-the-art performance on the RL Unplugged ATARI
dataset. We also test R-BVE on new datasets, from bsuite and a challenging
DeepMind Lab task, and show that R-BVE outperforms other state-of-the-art
discrete control offline RL methods.
- Abstract(参考訳): オフライン強化学習は、環境にアクセスせずにログデータのみに依存する学習プロセスを制限する。
これは現実世界のアプリケーションを可能にするが、ユニークな課題もある。
重要な課題の1つは、トレーニングデータによってカバーされていない状態-作用ペアの値の過大評価によるエラーの処理である。
ブートストラップのため、これらのエラーはトレーニング中に増幅され、発散につながり、学習を損なう。
この課題を克服するために,正規化行動値推定(r-bve)を導入する。
訓練中の政策改善を利用するほとんどのアプローチとは異なり、R-BVEは訓練中の行動ポリシーの価値を推定し、展開時にのみ政策改善を行う。
さらに、R-BVEはランキング正規化用語を使用し、データセットのアクションを好んで結果が成功する。
RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
我々はまた、bsuiteや挑戦的なDeepMind Labタスクなど、新しいデータセット上でR-BVEをテストし、R-BVEが他の最先端の個別制御オフラインRLメソッドよりも優れていることを示す。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。