論文の概要: Multi-Agent Asynchronous Cooperation with Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.15925v1
- Date: Tue, 29 Mar 2022 22:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:24:04.479817
- Title: Multi-Agent Asynchronous Cooperation with Hierarchical Reinforcement
Learning
- Title(参考訳): 階層型強化学習によるマルチエージェント非同期協調
- Authors: Xubo Lyu, Amin Banitalebi-Dehkordi, Mo Chen, Yong Zhang
- Abstract要約: 非同期マルチエージェントオプションに対してポリシー勾配を最適化する数学的枠組みを提案する。
本手法は, 相互依存レベルが異なる多エージェント協調構成の集合を用いて検討する。
- 参考スコア(独自算出の注目度): 10.904610735933145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical multi-agent reinforcement learning (MARL) has shown a
significant learning efficiency by searching policy over higher-level,
temporally extended actions (options). However, standard policy gradient-based
MARL methods have a difficulty generalizing to option-based scenarios due to
the asynchronous executions of multi-agent options. In this work, we propose a
mathematical framework to enable policy gradient optimization over asynchronous
multi-agent options by adjusting option-based policy distribution as well as
trajectory probability. We study our method under a set of multi-agent
cooperative setups with varying inter-dependency levels, and evaluate the
effectiveness of our method on typical option-based multi-agent cooperation
tasks.
- Abstract(参考訳): 階層型マルチエージェント強化学習(MARL)は,高レベルかつ時間的に拡張された行動(オプション)を探索することで,学習効率が著しく向上した。
しかしながら、標準ポリシー勾配に基づくmarlメソッドは、マルチエージェントオプションの非同期実行のためにオプションベースのシナリオに一般化するのが困難である。
本研究では,オプションベースのポリシー分布と軌道確率を調整し,非同期マルチエージェントオプションに対するポリシー勾配最適化を可能にする数学的枠組みを提案する。
本手法は,相互依存度が異なるマルチエージェント協調作業のセットで検討し,提案手法が典型的なオプションベースのマルチエージェント協調作業に有効であるかを評価する。
関連論文リスト
- TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy
Gradient [36.83464785085713]
本稿では,他のエージェントを政策として考慮すべきかどうかを判断するエージェントトポロジフレームワークを提案する。
エージェントは、グローバルユーティリティではなく、連立ユーティリティを学習目的として使用することができる。
我々は,TAPEの政策改善定理を証明し,エージェント間の協調性の向上に関する理論的説明を行う。
論文 参考訳(メタデータ) (2023-12-25T09:24:33Z) - Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。