論文の概要: Contextual Conservative Q-Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.01298v1
- Date: Tue, 3 Jan 2023 13:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:24:36.077102
- Title: Contextual Conservative Q-Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための文脈保守型Qラーニング
- Authors: Ke Jiang, Jiayu Yao, Xiaoyang Tan
- Abstract要約: 逆ダイナミクスモデルを用いて取得したコンテキスト情報を用いて、信頼性の高いポリシーを学習するために、コンテキスト保守型Q-Learning(C-CQL)を提案する。
C-CQLは、オフラインのMujocoスイートとノイズの多いMujoco設定のほとんどの環境で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 15.819356579361843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning learns an effective policy on offline datasets
without online interaction, and it attracts persistent research attention due
to its potential of practical application. However, extrapolation error
generated by distribution shift will still lead to the overestimation for those
actions that transit to out-of-distribution(OOD) states, which degrades the
reliability and robustness of the offline policy. In this paper, we propose
Contextual Conservative Q-Learning(C-CQL) to learn a robustly reliable policy
through the contextual information captured via an inverse dynamics model. With
the supervision of the inverse dynamics model, it tends to learn a policy that
generates stable transition at perturbed states, for the fact that pertuebed
states are a common kind of OOD states. In this manner, we enable the learnt
policy more likely to generate transition that destines to the empirical next
state distributions of the offline dataset, i.e., robustly reliable transition.
Besides, we theoretically reveal that C-CQL is the generalization of the
Conservative Q-Learning(CQL) and aggressive State Deviation Correction(SDC).
Finally, experimental results demonstrate the proposed C-CQL achieves the
state-of-the-art performance in most environments of offline Mujoco suite and a
noisy Mujoco setting.
- Abstract(参考訳): オフライン強化学習は,オンラインインタラクションを伴わないオフラインデータセットの効果的なポリシを学習する。
しかし、分散シフトによって生じる外挿誤差は、オフラインポリシーの信頼性と堅牢性を低下させるout-of-distribution(ood)状態に移行するアクションに対する過大評価につながる。
本稿では,逆ダイナミクスモデルを用いて取得したコンテキスト情報を用いて,信頼性の高いポリシーを学習するためのコンテキスト保守型Q-Learning(C-CQL)を提案する。
逆ダイナミクスモデルの監督により、摂動状態がOOD状態の一般的な種類であるという事実から、摂動状態における安定な遷移を生成する政策を学ぶ傾向にある。
このようにして、学習ポリシーは、オフラインデータセットの実証的な次の状態分布、すなわち堅牢に信頼性のある遷移に運命付ける遷移をより高めることができる。
さらに,C-CQLは保守的Q-Learning(CQL)と攻撃的状態偏差補正(SDC)の一般化であることを示す。
最後に、提案したC-CQLがオフラインのMujocoスイートとノイズの多いMujoco設定のほとんどの環境で最先端のパフォーマンスを達成することを示す実験結果が発表された。
関連論文リスト
- Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。