論文の概要: Q-Value Weighted Regression: Reinforcement Learning with Limited Data
- arxiv url: http://arxiv.org/abs/2102.06782v1
- Date: Fri, 12 Feb 2021 21:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:40:44.264298
- Title: Q-Value Weighted Regression: Reinforcement Learning with Limited Data
- Title(参考訳): Q-Value Weighted Regression: 限定データによる強化学習
- Authors: Piotr Kozakowski, {\L}ukasz Kaiser, Henryk Michalewski, Afroz
Mohiuddin, Katarzyna Ka\'nska
- Abstract要約: Q-Value Weighted Regression (QWR) は、オフライン設定に優れた単純なRLアルゴリズムである。
本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。
また、QWRがオフラインのRL設定で良好に動作することを検証する。
- 参考スコア(独自算出の注目度): 13.080140618638243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency and performance in the offline setting have emerged as
significant challenges of deep reinforcement learning. We introduce Q-Value
Weighted Regression (QWR), a simple RL algorithm that excels in these aspects.
QWR is an extension of Advantage Weighted Regression (AWR), an off-policy
actor-critic algorithm that performs very well on continuous control tasks,
also in the offline setting, but has low sample efficiency and struggles with
high-dimensional observation spaces. We perform an analysis of AWR that
explains its shortcomings and use these insights to motivate QWR. We show
experimentally that QWR matches the state-of-the-art algorithms both on tasks
with continuous and discrete actions. In particular, QWR yields results on par
with SAC on the MuJoCo suite and - with the same set of hyperparameters -
yields results on par with a highly tuned Rainbow implementation on a set of
Atari games. We also verify that QWR performs well in the offline RL setting.
- Abstract(参考訳): オフライン環境でのサンプル効率とパフォーマンスは、深層強化学習の重要な課題として現れている。
これらの点で優れた単純なRLアルゴリズムであるQ-Value Weighted Regression (QWR)を紹介します。
QWR(Advantage Weighted Regression, AWR)は、オフラインでも連続的な制御タスクで非常によく機能するが、サンプル効率は低く、高次元の観測空間と競合する、非政治的なアクター批判アルゴリズムである。
我々は、その欠点を説明し、これらの洞察を用いてQWRを動機付けるAWRの分析を行う。
本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。
特にqwrは、mujocoスイートのsacと同等の結果と、atariゲームセットで高度に調整されたレインボー実装と同等のhyperparametersyieldsセットを持つ結果が得られる。
また、QWRがオフラインのRL設定で良好に動作することを検証する。
関連論文リスト
- Bridging RL Theory and Practice with the Effective Horizon [10.65673380743972]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。
我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。
また,既存の境界と異なり,実効地平線は,報酬形成や事前訓練された探査政策を用いることの効果を予測できることを示した。
論文 参考訳(メタデータ) (2023-04-19T17:59:01Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。
DTは縫合能力に欠ける -- 準最適軌道から最適なポリシーを学ぶオフラインRLにとって重要な能力の1つだ。
動的プログラミング(Q-learning)の利点を活用して,DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。