論文の概要: Conservative State Value Estimation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.06884v2
- Date: Sat, 2 Dec 2023 14:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:41:16.503388
- Title: Conservative State Value Estimation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための保守的状態値推定
- Authors: Liting Chen, Jie Yan, Zhengdao Shao, Lu Wang, Qingwei Lin, Saravan
Rajmohan, Thomas Moscibroda and Dongmei Zhang
- Abstract要約: 保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
- 参考スコア(独自算出の注目度): 36.416504941791224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning faces a significant challenge of value
over-estimation due to the distributional drift between the dataset and the
current learned policy, leading to learning failure in practice. The common
approach is to incorporate a penalty term to reward or value estimation in the
Bellman iterations. Meanwhile, to avoid extrapolation on out-of-distribution
(OOD) states and actions, existing methods focus on conservative Q-function
estimation. In this paper, we propose Conservative State Value Estimation
(CSVE), a new approach that learns conservative V-function via directly
imposing penalty on OOD states. Compared to prior work, CSVE allows more
effective state value estimation with conservative guarantees and further
better policy optimization. Further, we apply CSVE and develop a practical
actor-critic algorithm in which the critic does the conservative value
estimation by additionally sampling and penalizing the states \emph{around} the
dataset, and the actor applies advantage weighted updates extended with state
exploration to improve the policy. We evaluate in classic continual control
tasks of D4RL, showing that our method performs better than the conservative
Q-function learning methods and is strongly competitive among recent SOTA
methods.
- Abstract(参考訳): オフライン強化学習は、データセットと現在の学習方針の分散的なドリフトによって、価値の過大評価という大きな課題に直面している。
一般的なアプローチは、報酬または価値推定にペナルティ項をベルマン反復に組み込むことである。
一方、out-of-distribution(ood)状態とアクションの補間を避けるために、既存の手法では保守的なq関数推定に焦点を当てている。
本稿では,OOD状態に直接ペナルティを課すことによって,保守的V関数を学習する新しいアプローチである保存的状態値推定(CSVE)を提案する。
従来の作業と比較すると、CSVEは保守的な保証を伴うより効果的な状態値推定と、より優れたポリシー最適化を可能にしている。
さらに, csveを応用し, 批判者がデータ集合 \emph{around} の状態のサンプリングとペナルティを付加することにより, 保守的価値推定を行う実用的なアクタ-批判的アルゴリズムを開発し, 状態探索によって拡張された重み付き更新を活用し, ポリシーを改善する。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - DCE: Offline Reinforcement Learning With Double Conservative Estimates [20.48354991493888]
簡易な保守的推定法である二重保守的推定法(DCE)を提案する。
提案アルゴリズムは,保守的推定を暗黙的に達成しながら,分布内動作の誤差を回避するためにV関数を導入する。
本実験は,2つの保守的推定法が全ての状態行動の推定に与える影響を別々に示す。
論文 参考訳(メタデータ) (2022-09-27T03:34:19Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。