論文の概要: Continuous Control With Ensemble Deep Deterministic Policy Gradients
- arxiv url: http://arxiv.org/abs/2111.15382v1
- Date: Tue, 30 Nov 2021 13:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:56:04.507061
- Title: Continuous Control With Ensemble Deep Deterministic Policy Gradients
- Title(参考訳): 深い決定論的政策勾配を用いた連続制御
- Authors: Piotr Januszewski, Mateusz Olko, Micha{\l} Kr\'olikowski, Jakub
\'Swi\k{a}tkowski, Marcin Andrychowicz, {\L}ukasz Kuci\'nski, Piotr
Mi{\l}o\'s
- Abstract要約: 我々は,OpenAI Gym MuJoCoの継続的制御タスクに対して,ED2(Ensemble Deep Deterministic Policy Gradients)が最先端の結果をもたらす方法を示す。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存の深層強化学習ツールボックス以外の知識を必要としない。
- 参考スコア(独自算出の注目度): 3.3465375629622502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growth of deep reinforcement learning (RL) has brought multiple exciting
tools and methods to the field. This rapid expansion makes it important to
understand the interplay between individual elements of the RL toolbox. We
approach this task from an empirical perspective by conducting a study in the
continuous control setting. We present multiple insights of fundamental nature,
including: an average of multiple actors trained from the same data boosts
performance; the existing methods are unstable across training runs, epochs of
training, and evaluation runs; a commonly used additive action noise is not
required for effective training; a strategy based on posterior sampling
explores better than the approximated UCB combined with the weighted Bellman
backup; the weighted Bellman backup alone cannot replace the clipped double
Q-Learning; the critics' initialization plays the major role in ensemble-based
actor-critic exploration. As a conclusion, we show how existing tools can be
brought together in a novel way, giving rise to the Ensemble Deep Deterministic
Policy Gradients (ED2) method, to yield state-of-the-art results on continuous
control tasks from OpenAI Gym MuJoCo. From the practical side, ED2 is
conceptually straightforward, easy to code, and does not require knowledge
outside of the existing RL toolbox.
- Abstract(参考訳): deep reinforcement learning(rl)の成長は、この分野に複数のエキサイティングなツールとメソッドをもたらした。
この急速な拡張により、RLツールボックスの個々の要素間の相互作用を理解することが重要である。
我々は,この課題を経験的視点から,連続制御環境で研究することでアプローチする。
We present multiple insights of fundamental nature, including: an average of multiple actors trained from the same data boosts performance; the existing methods are unstable across training runs, epochs of training, and evaluation runs; a commonly used additive action noise is not required for effective training; a strategy based on posterior sampling explores better than the approximated UCB combined with the weighted Bellman backup; the weighted Bellman backup alone cannot replace the clipped double Q-Learning; the critics' initialization plays the major role in ensemble-based actor-critic exploration.
結論として,既存のツールを新たな方法で組み合わせることで,OpenAI Gym MuJoCoの継続的制御タスクに対する最先端の成果を得るために,ED2(Ensemble Deep Deterministic Policy Gradients)メソッドが導入された。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存のRLツールボックス以外の知識を必要としない。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Two-stage Learning-to-Defer for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。
我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。