論文の概要: Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.06042v1
- Date: Wed, 10 Feb 2021 01:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:23:22.672089
- Title: Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調マルチエージェント強化学習におけるエージェント間の相互作用のモデル化
- Authors: Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Yang
Jun
- Abstract要約: 対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
- 参考スコア(独自算出の注目度): 2.9360071145551068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-based methods of multi-agent reinforcement learning (MARL), especially
the value decomposition methods, have been demonstrated on a range of
challenging cooperative tasks. However, current methods pay little attention to
the interaction between agents, which is essential to teamwork in games or real
life. This limits the efficiency of value-based MARL algorithms in the two
aspects: collaborative exploration and value function estimation. In this
paper, we propose a novel cooperative MARL algorithm named as interactive
actor-critic~(IAC), which models the interaction of agents from the
perspectives of policy and value function. On the policy side, a multi-agent
joint stochastic policy is introduced by adopting a collaborative exploration
module, which is trained by maximizing the entropy-regularized expected return.
On the value side, we use the shared attention mechanism to estimate the value
function of each agent, which takes the impact of the teammates into
consideration. At the implementation level, we extend the value decomposition
methods to continuous control tasks and evaluate IAC on benchmark tasks
including classic control and multi-agent particle environments. Experimental
results indicate that our method outperforms the state-of-the-art approaches
and achieves better performance in terms of cooperation.
- Abstract(参考訳): 多エージェント強化学習(MARL)のバリューベース手法,特に値分解法は,様々な課題に対して実証されてきた。
しかし、現在の手法は、ゲームや実生活におけるチームワークに不可欠なエージェント間の相互作用にはほとんど注意を払わない。
これは、協調探索と値関数推定という2つの面で、値ベースのMARLアルゴリズムの効率を制限します。
本論文では,エージェントの相互作用を政策と価値関数の観点からモデル化する,対話型アクタークリティカル(IAC)という新たな協調的MARLアルゴリズムを提案する。
政策面では、エントロピー規則化された期待リターンを最大化する共同探索モジュールを採用することで、マルチエージェント共同確率ポリシーを導入する。
価値面では、チームメイトの影響を考慮して、各エージェントの価値関数を推定するために共通の注意メカニズムを使用します。
実装レベルでは、値分解法を連続制御タスクに拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
実験結果から,本手法は最先端の手法よりも優れ,協調的な手法による性能の向上が期待できる。
関連論文リスト
- Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文 参考訳(メタデータ) (2021-01-18T05:52:22Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。