論文の概要: Q-Value Weighted Regression: Reinforcement Learning with Limited Data
- arxiv url: http://arxiv.org/abs/2102.06782v1
- Date: Fri, 12 Feb 2021 21:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:40:44.264298
- Title: Q-Value Weighted Regression: Reinforcement Learning with Limited Data
- Title(参考訳): Q-Value Weighted Regression: 限定データによる強化学習
- Authors: Piotr Kozakowski, {\L}ukasz Kaiser, Henryk Michalewski, Afroz
Mohiuddin, Katarzyna Ka\'nska
- Abstract要約: Q-Value Weighted Regression (QWR) は、オフライン設定に優れた単純なRLアルゴリズムである。
本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。
また、QWRがオフラインのRL設定で良好に動作することを検証する。
- 参考スコア(独自算出の注目度): 13.080140618638243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency and performance in the offline setting have emerged as
significant challenges of deep reinforcement learning. We introduce Q-Value
Weighted Regression (QWR), a simple RL algorithm that excels in these aspects.
QWR is an extension of Advantage Weighted Regression (AWR), an off-policy
actor-critic algorithm that performs very well on continuous control tasks,
also in the offline setting, but has low sample efficiency and struggles with
high-dimensional observation spaces. We perform an analysis of AWR that
explains its shortcomings and use these insights to motivate QWR. We show
experimentally that QWR matches the state-of-the-art algorithms both on tasks
with continuous and discrete actions. In particular, QWR yields results on par
with SAC on the MuJoCo suite and - with the same set of hyperparameters -
yields results on par with a highly tuned Rainbow implementation on a set of
Atari games. We also verify that QWR performs well in the offline RL setting.
- Abstract(参考訳): オフライン環境でのサンプル効率とパフォーマンスは、深層強化学習の重要な課題として現れている。
これらの点で優れた単純なRLアルゴリズムであるQ-Value Weighted Regression (QWR)を紹介します。
QWR(Advantage Weighted Regression, AWR)は、オフラインでも連続的な制御タスクで非常によく機能するが、サンプル効率は低く、高次元の観測空間と競合する、非政治的なアクター批判アルゴリズムである。
我々は、その欠点を説明し、これらの洞察を用いてQWRを動機付けるAWRの分析を行う。
本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。
特にqwrは、mujocoスイートのsacと同等の結果と、atariゲームセットで高度に調整されたレインボー実装と同等のhyperparametersyieldsセットを持つ結果が得られる。
また、QWRがオフラインのRL設定で良好に動作することを検証する。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。