論文の概要: Hybrid Value Estimation for Off-policy Evaluation and Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.02000v1
- Date: Sat, 4 Jun 2022 14:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 15:51:15.832997
- Title: Hybrid Value Estimation for Off-policy Evaluation and Offline
Reinforcement Learning
- Title(参考訳): オフポリシー評価とオフライン強化学習のためのハイブリッド値推定
- Authors: Xue-Kun Jin, Xu-Hui Liu, Shengyi Jiang, Yang Yu
- Abstract要約: オフラインデータからの価値推定と学習モデルとのバランスをとることでバイアスと分散をトレードオフする。
我々は、Off-policy HVE(OPHVE)とModel-based Offline HVE(MOHVE)の2つの具体的なアルゴリズムを提供する。
OPHVEは、推定効率を測定する3つの指標すべてにおいて、他の非政治評価手法よりも優れており、MOHVEは最先端のオフライン強化学習アルゴリズムで、より良いあるいは同等のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 9.569712307272834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value function estimation is an indispensable subroutine in reinforcement
learning, which becomes more challenging in the offline setting. In this paper,
we propose Hybrid Value Estimation (HVE) to reduce value estimation error,
which trades off bias and variance by balancing between the value estimation
from offline data and the learned model. Theoretical analysis discloses that
HVE enjoys a better error bound than the direct methods. HVE can be leveraged
in both off-policy evaluation and offline reinforcement learning settings. We,
therefore, provide two concrete algorithms Off-policy HVE (OPHVE) and
Model-based Offline HVE (MOHVE), respectively. Empirical evaluations on MuJoCo
tasks corroborate the theoretical claim. OPHVE outperforms other off-policy
evaluation methods in all three metrics measuring the estimation effectiveness,
while MOHVE achieves better or comparable performance with state-of-the-art
offline reinforcement learning algorithms. We hope that HVE could shed some
light on further research on reinforcement learning from fixed data.
- Abstract(参考訳): 値関数推定は強化学習において必須のサブルーチンであり、オフライン環境ではより困難になる。
本稿では,オフラインデータからの値推定と学習モデルとのバランスをとることにより,バイアスと分散をトレードオフする値推定誤差を低減するハイブリッド値推定(hve)を提案する。
理論的解析により、HVEは直接法よりも優れた誤差境界を持つことが明らかになった。
HVEは、非政治評価とオフライン強化学習の両方で活用することができる。
そこで我々は,Off-policy HVE (OPHVE) とModel-based Offline HVE (MOHVE) の2つの具体的なアルゴリズムを提供する。
MuJoCo タスクに関する経験的評価は理論的な主張を裏付ける。
OPHVEは、推定効率を測定する3つの指標すべてにおいて、他の非政治評価手法よりも優れており、MOHVEは最先端のオフライン強化学習アルゴリズムで、より良いあるいは同等のパフォーマンスを達成する。
hveが固定データからの強化学習に関するさらなる研究に光を当てられることを願っている。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Exclusively Penalized Q-learning for Offline Reinforcement Learning [4.916646834691489]
制約に基づくオフライン強化学習(RL)は、分散シフトに起因する過大評価誤差を軽減するために、ポリシー制約や値関数に対する罰則を課す。
本稿では、ペナル化値関数を持つ既存のオフラインRL法における制限に着目し、値関数に導入される不要なバイアスによる過小評価バイアスの可能性を示す。
本稿では,推定誤差を誘導し易い状態を選択的にペナライズすることで,値関数における推定バイアスを低減する排他的罰則Q-ラーニング(EPQ)を提案する。
論文 参考訳(メタデータ) (2024-05-23T01:06:05Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。