論文の概要: Centralized Cooperative Exploration Policy for Continuous Control Tasks
- arxiv url: http://arxiv.org/abs/2301.02375v1
- Date: Fri, 6 Jan 2023 04:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:50:13.781874
- Title: Centralized Cooperative Exploration Policy for Continuous Control Tasks
- Title(参考訳): 連続制御タスクのための集中型協調探索政策
- Authors: Chao Li, Chen Gong, Qiang He, Xinwen Hou and Yu Liu
- Abstract要約: 深部強化学習(DRL)アルゴリズムは、様々な複雑な制御タスクを解くのに最適である。
DRLの最適ポリシーにアクセスする上で、探索は重要な役割を果たす。
本研究では,連続制御タスクにおける探索を明示的に奨励するCCEP(Cooperative Exploration Policy)を提案する。
- 参考スコア(独自算出の注目度): 29.418218149738284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep reinforcement learning (DRL) algorithm works brilliantly on solving
various complex control tasks. This phenomenal success can be partly attributed
to DRL encouraging intelligent agents to sufficiently explore the environment
and collect diverse experiences during the agent training process. Therefore,
exploration plays a significant role in accessing an optimal policy for DRL.
Despite recent works making great progress in continuous control tasks,
exploration in these tasks has remained insufficiently investigated. To
explicitly encourage exploration in continuous control tasks, we propose CCEP
(Centralized Cooperative Exploration Policy), which utilizes underestimation
and overestimation of value functions to maintain the capacity of exploration.
CCEP first keeps two value functions initialized with different parameters, and
generates diverse policies with multiple exploration styles from a pair of
value functions. In addition, a centralized policy framework ensures that CCEP
achieves message delivery between multiple policies, furthermore contributing
to exploring the environment cooperatively. Extensive experimental results
demonstrate that CCEP achieves higher exploration capacity. Empirical analysis
shows diverse exploration styles in the learned policies by CCEP, reaping
benefits in more exploration regions. And this exploration capacity of CCEP
ensures it outperforms the current state-of-the-art methods across multiple
continuous control tasks shown in experiments.
- Abstract(参考訳): 深層強化学習(drl)アルゴリズムは、様々な複雑な制御タスクを巧みに解決する。
この現象的な成功は、DRLが知的エージェントに環境を十分に探索し、エージェントトレーニングプロセス中に多様な経験を収集するよう促すことによるものである。
したがって、探査はdrlの最適ポリシーにアクセスする上で重要な役割を果たす。
近年の継続的制御タスクの進歩にもかかわらず、これらのタスクの探索は不十分なままである。
連続制御タスクにおける探索を明示的に奨励するために,価値関数の過小評価と過大評価を利用して探索能力を維持するCCEP(Centralized Cooperative Exploration Policy)を提案する。
CCEPはまず、異なるパラメータで初期化された2つの値関数を保持し、値関数のペアから複数の探索スタイルで多様なポリシーを生成する。
さらに、集中型ポリシフレームワークは、CCEPが複数のポリシ間のメッセージ配信を実現し、さらに環境の協調的な探索に寄与することを保証する。
大規模な実験の結果、CCEPは高い探査能力を発揮することが示された。
実証分析では、CCEPによる学習政策における多様な探索スタイルが示され、より多くの探検地域での利益が得られている。
そしてこのccepの探索能力は、実験で示された複数の連続制御タスクにまたがる現在の最先端のメソッドよりも優れています。
関連論文リスト
- MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。
エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。
実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-05-01T23:19:48Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Consolidation via Policy Information Regularization in Deep RL for
Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。
多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文 参考訳(メタデータ) (2020-11-23T16:28:27Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。