論文の概要: Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based
on Maximum Entropy
- arxiv url: http://arxiv.org/abs/2206.05108v1
- Date: Fri, 10 Jun 2022 13:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:31:55.986059
- Title: Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based
on Maximum Entropy
- Title(参考訳): 最大エントロピーに基づくハイブリッドアクション空間を用いた深層マルチエージェント強化学習
- Authors: Hongzhi Hua, Kaigui Wu and Guixuan Wen
- Abstract要約: 本稿では,ハイブリッドアクション空間におけるマルチエージェント問題に対処するために,深層マルチエージェントハイブリッド・アクター・クリティカル(MAHSAC)を提案する。
このアルゴリズムは、中央集権的なトレーニングであるが、分散実行(CTDE)パラダイムに従い、ハイブリッドアクション空間問題を扱うためにソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。
私たちの経験は、連続的な観察と離散的なアクション空間を持つ、簡単なマルチエージェント粒子の世界と、いくつかの基本的なシミュレートされた物理学で動いています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent deep reinforcement learning has been applied to address a variety
of complex problems with either discrete or continuous action spaces and
achieved great success. However, most real-world environments cannot be
described by only discrete action spaces or only continuous action spaces. And
there are few works having ever utilized deep reinforcement learning (drl) to
multi-agent problems with hybrid action spaces. Therefore, we propose a novel
algorithm: Deep Multi-Agent Hybrid Soft Actor-Critic (MAHSAC) to fill this gap.
This algorithm follows the centralized training but decentralized execution
(CTDE) paradigm, and extend the Soft Actor-Critic algorithm (SAC) to handle
hybrid action space problems in Multi-Agent environments based on maximum
entropy. Our experiences are running on an easy multi-agent particle world with
a continuous observation and discrete action space, along with some basic
simulated physics. The experimental results show that MAHSAC has good
performance in training speed, stability, and anti-interference ability. At the
same time, it outperforms existing independent deep hybrid learning method in
cooperative scenarios and competitive scenarios.
- Abstract(参考訳): マルチエージェント深層強化学習は、離散的あるいは連続的な行動空間を持つ様々な複雑な問題に対処するために応用され、大きな成功を収めた。
しかし、ほとんどの実世界環境は離散作用空間や連続作用空間だけでは記述できない。
また、ハイブリッドアクション空間におけるマルチエージェント問題に深層強化学習(drl)を利用した研究はほとんどない。
そこで我々は,このギャップを埋めるために,Deep Multi-Agent Hybrid Soft Actor-Critic (MAHSAC)を提案する。
このアルゴリズムは、集中的なトレーニングと分散実行(CTDE)のパラダイムに従っており、最大エントロピーに基づくマルチエージェント環境におけるハイブリッドアクション空間問題を処理するために、ソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。
私たちの経験は、基本的なシミュレーション物理とともに、連続的な観察と離散的なアクション空間を備えた、簡単なマルチエージェント粒子の世界で実行されています。
実験の結果,MAHSACはトレーニング速度,安定性,対干渉能力に優れていた。
同時に、協調シナリオや競争シナリオにおいて、既存の独立したディープハイブリッド学習手法よりも優れています。
関連論文リスト
- MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。
エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。
実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-05-01T23:19:48Z) - Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences [20.879194337982803]
MAPF(Multi-Agent Path-Finding)アルゴリズムは、離散的な2Dドメインで保証され、厳密な保証を提供する。
本稿では,その反復的かつ漸進的な性質を活用して,競合に基づく探索アルゴリズムを高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T20:31:07Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - A further exploration of deep Multi-Agent Reinforcement Learning with
Hybrid Action Space [0.0]
深層多エージェントハイブリッドアクター批判(MAHSAC)と多エージェントハイブリッド深層決定主義政策勾配(MAHDDPG)の2つのアルゴリズムを提案する。
私たちの経験は、簡単なマルチエージェント粒子の世界であるマルチエージェント粒子環境と、いくつかの基本的なシミュレートされた物理で動いています。
論文 参考訳(メタデータ) (2022-08-30T07:40:15Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2020-08-18T11:25:39Z) - Optimizing Cooperative path-finding: A Scalable Multi-Agent RRT* with Dynamic Potential Fields [11.872579571976903]
本研究では,多エージェントRT*ポテンシャル場(MA-RRT*PF)を提案する。
実験による評価は,MA-RRT*PFの高密度環境における従来のマルチエージェントRT* (MA-RRT*) よりも有意な優位性を示した。
論文 参考訳(メタデータ) (2019-11-16T13:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。