論文の概要: CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics
- arxiv url: http://arxiv.org/abs/2405.02576v2
- Date: Mon, 20 May 2024 04:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:21:29.263916
- Title: CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics
- Title(参考訳): CTD4 - 多重臨界のカルマン融合を用いた深部連続分布型アクター臨界剤
- Authors: David Valencia, Henry Williams, Trevor Gee, Bruce A MacDonald, Minas Liarokapis,
- Abstract要約: CDRL(Categorical Distributional Reinforcement Learning)は,複雑なタスクの学習において,より優れたサンプル効率を示す。
本稿では,連続行動空間に適した連続分布モデル自由RLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.229467987498053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Categorical Distributional Reinforcement Learning (CDRL) has demonstrated superior sample efficiency in learning complex tasks compared to conventional Reinforcement Learning (RL) approaches. However, the practical application of CDRL is encumbered by challenging projection steps, detailed parameter tuning, and domain knowledge. This paper addresses these challenges by introducing a pioneering Continuous Distributional Model-Free RL algorithm tailored for continuous action spaces. The proposed algorithm simplifies the implementation of distributional RL, adopting an actor-critic architecture wherein the critic outputs a continuous probability distribution. Additionally, we propose an ensemble of multiple critics fused through a Kalman fusion mechanism to mitigate overestimation bias. Through a series of experiments, we validate that our proposed method is easy to train and serves as a sample-efficient solution for executing complex continuous-control tasks.
- Abstract(参考訳): CDRL(Categorical Distributional Reinforcement Learning)は,従来のRL(Reinforcement Learning)アプローチと比較して,複雑なタスクの学習において,より優れたサンプル効率を示す。
しかし、CDRLの実践的応用は、挑戦的なプロジェクションステップ、詳細なパラメータチューニング、ドメイン知識によって妨げられている。
本稿では,連続行動空間に適した連続分布モデル自由RLアルゴリズムを導入することで,これらの課題に対処する。
提案アルゴリズムは,連続確率分布を出力するアクタ批判アーキテクチャを用いて,分布RLの実装を単純化する。
さらに,過大評価バイアスを軽減するために,カルマン融合機構を通じて融合した複数の批評家のアンサンブルを提案する。
一連の実験を通して,提案手法は訓練が容易であり,複雑な連続制御タスクを実行するためのサンプル効率の高いソリューションとして機能することが検証された。
関連論文リスト
- Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - A Connection between One-Step Regularization and Critic Regularization
in Reinforcement Learning [163.44116192806922]
1ステップの手法は、政策改善の1ステップだけを実行することで正規化を行う。
批判的正規化手法は 政策改善の多くのステップを 正規化の目的で行います
多段階批判正規化法を1イテレーションの正規化係数で適用すると、1ステップRLと同じポリシーが得られる。
論文 参考訳(メタデータ) (2023-07-24T17:46:32Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。