論文の概要: Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms
- arxiv url: http://arxiv.org/abs/2404.10645v1
- Date: Tue, 16 Apr 2024 15:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:24:42.601532
- Title: Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms
- Title(参考訳): 連続制御強化学習:分散分散DrQアルゴリズム
- Authors: Zehao Zhou,
- Abstract要約: 分散分散分散DrQ(Distributed Distributional DrQ)は、エージェントの状態と観測に基づく連続的な制御タスクのためのモデルフリーで非政治的なRLアルゴリズムである。
DrQ-v2はDDPGをバックボーンとして使用し、様々な連続制御タスクで性能を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Distributed Distributional DrQ is a model-free and off-policy RL algorithm for continuous control tasks based on the state and observation of the agent, which is an actor-critic method with the data-augmentation and the distributional perspective of critic value function. Aim to learn to control the agent and master some tasks in a high-dimensional continuous space. DrQ-v2 uses DDPG as the backbone and achieves out-performance in various continuous control tasks. Here Distributed Distributional DrQ uses Distributed Distributional DDPG as the backbone, and this modification aims to achieve better performance in some hard continuous control tasks through the better expression ability of distributional value function and distributed actor policies.
- Abstract(参考訳): 分散分散分散DrQ(Distributed Distributional DrQ)は、エージェントの状態と観察に基づく連続的な制御タスクのためのモデルフリーで非政治的なRLアルゴリズムである。
エージェントを制御し、高次元連続空間でタスクをマスターすることを学ぶこと。
DrQ-v2はDDPGをバックボーンとして使用し、様々な連続制御タスクでパフォーマンスを向上する。
ここで、分散分散DrQは分散分散分散DDPGをバックボーンとして使用し、分散値関数と分散アクターポリシーのより良い表現能力により、ハードな連続制御タスクにおいてより良いパフォーマンスを達成することを目的としている。
関連論文リスト
- Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Invariance to Quantile Selection in Distributional Continuous Control [0.0]
離散的行動空間に対する手法の相対的性能が連続ケースに変換されるかどうかを考察する。
本結果は, 決定論的かつ連続的な作用条件における分布原子の数と配置に関する定性的不変性を示す。
論文 参考訳(メタデータ) (2022-12-29T11:11:22Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Revisiting Gaussian mixture critics in off-policy reinforcement
learning: a sample-based approach [28.199348547856175]
本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-21T16:44:47Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Global Distance-distributions Separation for Unsupervised Person
Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。
本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。
本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-06-01T07:05:39Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z) - Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。
提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。
SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文 参考訳(メタデータ) (2020-01-08T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。