論文の概要: Conservative Q-Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.04779v3
- Date: Wed, 19 Aug 2020 17:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:01:11.774646
- Title: Conservative Q-Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための保守的Qラーニング
- Authors: Aviral Kumar, Aurick Zhou, George Tucker, Sergey Levine
- Abstract要約: CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 106.05582605650932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively leveraging large, previously collected datasets in reinforcement
learning (RL) is a key challenge for large-scale real-world applications.
Offline RL algorithms promise to learn effective policies from
previously-collected, static datasets without further interaction. However, in
practice, offline RL presents a major challenge, and standard off-policy RL
methods can fail due to overestimation of values induced by the distributional
shift between the dataset and the learned policy, especially when training on
complex and multi-modal data distributions. In this paper, we propose
conservative Q-learning (CQL), which aims to address these limitations by
learning a conservative Q-function such that the expected value of a policy
under this Q-function lower-bounds its true value. We theoretically show that
CQL produces a lower bound on the value of the current policy and that it can
be incorporated into a policy learning procedure with theoretical improvement
guarantees. In practice, CQL augments the standard Bellman error objective with
a simple Q-value regularizer which is straightforward to implement on top of
existing deep Q-learning and actor-critic implementations. On both discrete and
continuous control domains, we show that CQL substantially outperforms existing
offline RL methods, often learning policies that attain 2-5 times higher final
return, especially when learning from complex and multi-modal data
distributions.
- Abstract(参考訳): 大規模で以前に収集されたデータセットを強化学習(RL)で効果的に活用することは、大規模な実世界のアプリケーションにとって重要な課題である。
オフラインのRLアルゴリズムは、事前コンパイルされた静的データセットから効果的なポリシーを、さらなるインタラクションなしで学習することを約束する。
しかし、実際にはオフラインRLは大きな課題であり、特に複雑なマルチモーダルデータ分散のトレーニングにおいて、データセットと学習ポリシーの間の分散シフトによって引き起こされる値の過大評価によって、標準的なオフポリティクスRLメソッドが失敗する可能性がある。
本稿では,保守的なQ-関数を学習することで,これらの制約に対処することを目的とした保守的なQ-ラーニング(CQL)を提案する。
理論的には、CQLは現在のポリシーの価値の低いバウンドを生成し、理論的な改善を保証する政策学習手順に組み込むことができることを示す。
実際には、cqlは標準的なベルマンエラーの目的を、既存の深いq-learningとアクタ-クリティックな実装の上に簡単に実装できる単純なq-value正規化で強化している。
離散制御ドメインと連続制御ドメインの両方において、CQLは既存のオフラインRLメソッドよりも大幅に優れており、特に複雑かつマルチモーダルなデータ分散から学ぶ場合、最終的なリターンの2~5倍に達するポリシーを学習することが多い。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。