論文の概要: DCE: Offline Reinforcement Learning With Double Conservative Estimates
- arxiv url: http://arxiv.org/abs/2209.13132v1
- Date: Tue, 27 Sep 2022 03:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:01:06.033559
- Title: DCE: Offline Reinforcement Learning With Double Conservative Estimates
- Title(参考訳): DCE: 二重保守的見積によるオフライン強化学習
- Authors: Chen Zhao, Kai Xing Huang, Chun yuan
- Abstract要約: 簡易な保守的推定法である二重保守的推定法(DCE)を提案する。
提案アルゴリズムは,保守的推定を暗黙的に達成しながら,分布内動作の誤差を回避するためにV関数を導入する。
本実験は,2つの保守的推定法が全ての状態行動の推定に与える影響を別々に示す。
- 参考スコア(独自算出の注目度): 20.48354991493888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning has attracted much interest in solving the
application challenge for traditional reinforcement learning. Offline
reinforcement learning uses previously-collected datasets to train agents
without any interaction. For addressing the overestimation of OOD
(out-of-distribution) actions, conservative estimates give a low value for all
inputs. Previous conservative estimation methods are usually difficult to avoid
the impact of OOD actions on Q-value estimates. In addition, these algorithms
usually need to lose some computational efficiency to achieve the purpose of
conservative estimation. In this paper, we propose a simple conservative
estimation method, double conservative estimates (DCE), which use two
conservative estimation method to constraint policy. Our algorithm introduces
V-function to avoid the error of in-distribution action while implicit
achieving conservative estimation. In addition, our algorithm uses a
controllable penalty term changing the degree of conservatism in training. We
theoretically show how this method influences the estimation of OOD actions and
in-distribution actions. Our experiment separately shows that two conservative
estimation methods impact the estimation of all state-action. DCE demonstrates
the state-of-the-art performance on D4RL.
- Abstract(参考訳): オフライン強化学習は、従来の強化学習のアプリケーション課題を解決することに多くの関心を寄せている。
オフライン強化学習は、事前に収集したデータセットを使用して、インタラクションなしでエージェントをトレーニングする。
OOD(out-of-distribution)アクションの過大評価に対処するために、保守的な見積もりは全ての入力に対して低い値を与える。
従来の保守的推定法は、通常、Q値推定に対するOODアクションの影響を避けることが困難である。
さらに、これらのアルゴリズムは通常、保守的推定の目的を達成するために計算効率を損なう必要がある。
本稿では,制約ポリシーに2つの保守的推定法を用いる,単純保守的推定法である二重保守的推定法(dce)を提案する。
提案アルゴリズムは,保守的推定を暗黙的に達成しながら,分布内動作の誤差を回避するためにV関数を導入する。
さらに,本アルゴリズムは,トレーニングにおける保守主義の程度を変える制御可能なペナルティ項を用いる。
理論的には、この手法がOOD行動と分布内行動の推定にどのように影響するかを示す。
本実験は,2つの保守的推定法が全ての状態行動の推定に与える影響を別々に示す。
DCEはD4RLの最先端性能を示す。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。