論文の概要: Hybrid Value Estimation for Off-policy Evaluation and Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.02000v1
- Date: Sat, 4 Jun 2022 14:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 15:51:15.832997
- Title: Hybrid Value Estimation for Off-policy Evaluation and Offline
Reinforcement Learning
- Title(参考訳): オフポリシー評価とオフライン強化学習のためのハイブリッド値推定
- Authors: Xue-Kun Jin, Xu-Hui Liu, Shengyi Jiang, Yang Yu
- Abstract要約: オフラインデータからの価値推定と学習モデルとのバランスをとることでバイアスと分散をトレードオフする。
我々は、Off-policy HVE(OPHVE)とModel-based Offline HVE(MOHVE)の2つの具体的なアルゴリズムを提供する。
OPHVEは、推定効率を測定する3つの指標すべてにおいて、他の非政治評価手法よりも優れており、MOHVEは最先端のオフライン強化学習アルゴリズムで、より良いあるいは同等のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 9.569712307272834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value function estimation is an indispensable subroutine in reinforcement
learning, which becomes more challenging in the offline setting. In this paper,
we propose Hybrid Value Estimation (HVE) to reduce value estimation error,
which trades off bias and variance by balancing between the value estimation
from offline data and the learned model. Theoretical analysis discloses that
HVE enjoys a better error bound than the direct methods. HVE can be leveraged
in both off-policy evaluation and offline reinforcement learning settings. We,
therefore, provide two concrete algorithms Off-policy HVE (OPHVE) and
Model-based Offline HVE (MOHVE), respectively. Empirical evaluations on MuJoCo
tasks corroborate the theoretical claim. OPHVE outperforms other off-policy
evaluation methods in all three metrics measuring the estimation effectiveness,
while MOHVE achieves better or comparable performance with state-of-the-art
offline reinforcement learning algorithms. We hope that HVE could shed some
light on further research on reinforcement learning from fixed data.
- Abstract(参考訳): 値関数推定は強化学習において必須のサブルーチンであり、オフライン環境ではより困難になる。
本稿では,オフラインデータからの値推定と学習モデルとのバランスをとることにより,バイアスと分散をトレードオフする値推定誤差を低減するハイブリッド値推定(hve)を提案する。
理論的解析により、HVEは直接法よりも優れた誤差境界を持つことが明らかになった。
HVEは、非政治評価とオフライン強化学習の両方で活用することができる。
そこで我々は,Off-policy HVE (OPHVE) とModel-based Offline HVE (MOHVE) の2つの具体的なアルゴリズムを提供する。
MuJoCo タスクに関する経験的評価は理論的な主張を裏付ける。
OPHVEは、推定効率を測定する3つの指標すべてにおいて、他の非政治評価手法よりも優れており、MOHVEは最先端のオフライン強化学習アルゴリズムで、より良いあるいは同等のパフォーマンスを達成する。
hveが固定データからの強化学習に関するさらなる研究に光を当てられることを願っている。
関連論文リスト
- Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic
Methods [6.403512866289237]
予測遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3) の2つの新しいアルゴリズムを提案する。
ExpD3は1つの$Q$推定で過大評価バイアスを減らすことを目的としており、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。
これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。