Fugu-MT 論文翻訳(概要): Q-Value Weighted Regression: Reinforcement Learning with Limited Data

論文の概要: Q-Value Weighted Regression: Reinforcement Learning with Limited Data

arxiv url: http://arxiv.org/abs/2102.06782v1
Date: Fri, 12 Feb 2021 21:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 15:40:44.264298
Title: Q-Value Weighted Regression: Reinforcement Learning with Limited Data
Title（参考訳）: Q-Value Weighted Regression: 限定データによる強化学習
Authors: Piotr Kozakowski, {\L}ukasz Kaiser, Henryk Michalewski, Afroz Mohiuddin, Katarzyna Ka\'nska
Abstract要約: Q-Value Weighted Regression (QWR) は、オフライン設定に優れた単純なRLアルゴリズムである。本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。また、QWRがオフラインのRL設定で良好に動作することを検証する。
参考スコア（独自算出の注目度）: 13.080140618638243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sample efficiency and performance in the offline setting have emerged as significant challenges of deep reinforcement learning. We introduce Q-Value Weighted Regression (QWR), a simple RL algorithm that excels in these aspects. QWR is an extension of Advantage Weighted Regression (AWR), an off-policy actor-critic algorithm that performs very well on continuous control tasks, also in the offline setting, but has low sample efficiency and struggles with high-dimensional observation spaces. We perform an analysis of AWR that explains its shortcomings and use these insights to motivate QWR. We show experimentally that QWR matches the state-of-the-art algorithms both on tasks with continuous and discrete actions. In particular, QWR yields results on par with SAC on the MuJoCo suite and - with the same set of hyperparameters - yields results on par with a highly tuned Rainbow implementation on a set of Atari games. We also verify that QWR performs well in the offline RL setting.
Abstract（参考訳）: オフライン環境でのサンプル効率とパフォーマンスは、深層強化学習の重要な課題として現れている。これらの点で優れた単純なRLアルゴリズムであるQ-Value Weighted Regression (QWR)を紹介します。 QWR(Advantage Weighted Regression, AWR)は、オフラインでも連続的な制御タスクで非常によく機能するが、サンプル効率は低く、高次元の観測空間と競合する、非政治的なアクター批判アルゴリズムである。我々は、その欠点を説明し、これらの洞察を用いてQWRを動機付けるAWRの分析を行う。本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。特にqwrは、mujocoスイートのsacと同等の結果と、atariゲームセットで高度に調整されたレインボー実装と同等のhyperparametersyieldsセットを持つ結果が得られる。また、QWRがオフラインのRL設定で良好に動作することを検証する。

関連論文リスト

Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data [16.075418168983223]
オフラインデータによる強化学習はQ値外挿誤差に悩まされる。本稿では,データ範囲外におけるQ値の段階的減少を導くことを提案する。 RS-LNとPAを組み合わせることで、PARSと呼ばれる新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-07-11T17:16:02Z)
Scaling CrossQ with Weight Normalization [15.605124749589946]
CrossQは,更新データ(UTD)比が1。より高度なUTDによって強調されるトレーニングダイナミクスの課題を特定する。本稿では,学習を安定させ,可塑性の潜在的な損失を防止し,効果的な学習率を一定に保つソリューションを提案する。
論文参考訳（メタデータ） (2025-06-04T09:24:17Z)
Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。 CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文参考訳（メタデータ） (2024-07-10T16:04:08Z)
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文参考訳（メタデータ） (2023-12-12T19:24:35Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。 EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文参考訳（メタデータ） (2023-01-05T23:14:38Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文参考訳（メタデータ） (2021-12-08T10:22:49Z)
Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文参考訳（メタデータ） (2021-10-15T08:08:28Z)
Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文参考訳（メタデータ） (2020-10-09T20:25:14Z)
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文参考訳（メタデータ） (2020-07-21T21:13:02Z)
QTRAN++: Improved Value Transformation for Cooperative Multi-Agent Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。そこで我々はQTRAN++という改良版を提案する。
論文参考訳（メタデータ） (2020-06-22T05:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。