論文の概要: Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.14897v1
- Date: Mon, 28 Aug 2023 20:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:49:37.695767
- Title: Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning
- Title(参考訳): 逐次モデル強化学習におけるオフポリシー評価のための二重ポリシー推定による統計的効率的分散削減
- Authors: Hanhan Zhou, Tian Lan, Vaneet Aggarwal
- Abstract要約: 本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
- 参考スコア(独自算出の注目度): 53.97273491846883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning aims to utilize datasets of previously
gathered environment-action interaction records to learn a policy without
access to the real environment. Recent work has shown that offline
reinforcement learning can be formulated as a sequence modeling problem and
solved via supervised learning with approaches such as decision transformer.
While these sequence-based methods achieve competitive results over
return-to-go methods, especially on tasks that require longer episodes or with
scarce rewards, importance sampling is not considered to correct the policy
bias when dealing with off-policy data, mainly due to the absence of behavior
policy and the use of deterministic evaluation policies. To this end, we
propose DPE: an RL algorithm that blends offline sequence modeling and offline
reinforcement learning with Double Policy Estimation (DPE) in a unified
framework with statistically proven properties on variance reduction. We
validate our method in multiple tasks of OpenAI Gym with D4RL benchmarks. Our
method brings a performance improvements on selected methods which outperforms
SOTA baselines in several tasks, demonstrating the advantages of enabling
double policy estimation for sequence-modeled reinforcement learning.
- Abstract(参考訳): オフライン強化学習は、事前に収集した環境-行動間インタラクションレコードのデータセットを利用して、実際の環境にアクセスせずにポリシーを学習することを目的としている。
近年の研究では、オフライン強化学習をシーケンスモデリング問題として定式化し、決定トランスフォーマーのようなアプローチで教師あり学習によって解決できることが示されている。
これらのシーケンスベースの手法は、特に長いエピソードや少ない報酬を必要とするタスクにおいて、リターン・ツー・ゴーの手法よりも競争力のある結果を得るが、行動方針の欠如や決定論的評価ポリシーの使用により、非政治データを扱う際の政策バイアスを補正する重要性サンプリングは考慮されていない。
そこで本研究では,分散削減に関する統計的に証明された特性を持つ統一フレームワークにおいて,オフラインシーケンスモデリングとオフライン強化学習とダブルポリシー推定(dpe)を組み合わせたrlアルゴリズムを提案する。
D4RLベンチマークを用いてOpenAI Gymの複数のタスクで本手法を検証する。
提案手法は,複数のタスクにおいてSOTAベースラインを上回る性能向上を実現し,シーケンスモデル強化学習における二重ポリシー推定の利点を示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。