論文の概要: RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.01207v1
- Date: Thu, 2 Jun 2022 03:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:33:15.036964
- Title: RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning
- Title(参考訳): RACA:マルチエージェント深層強化学習におけるアドホック連携のための関係認識型クレジットアサインメント
- Authors: Hao Chen, Guangkai Yang, Junge Zhang, Qiyue Yin, Kaiqi Huang
- Abstract要約: 本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
- 参考スコア(独自算出の注目度): 55.55009081609396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, reinforcement learning has faced several challenges in the
multi-agent domain, such as the credit assignment issue. Value function
factorization emerges as a promising way to handle the credit assignment issue
under the centralized training with decentralized execution (CTDE) paradigm.
However, existing value function factorization methods cannot deal with ad-hoc
cooperation, that is, adapting to new configurations of teammates at test time.
Specifically, these methods do not explicitly utilize the relationship between
agents and cannot adapt to different sizes of inputs. To address these
limitations, we propose a novel method, called Relation-Aware Credit Assignment
(RACA), which achieves zero-shot generalization in ad-hoc cooperation
scenarios. RACA takes advantage of a graph-based relation encoder to encode the
topological structure between agents. Furthermore, RACA utilizes an
attention-based observation abstraction mechanism that can generalize to an
arbitrary number of teammates with a fixed number of parameters. Experiments
demonstrate that our method outperforms baseline methods on the StarCraftII
micromanagement benchmark and ad-hoc cooperation scenarios.
- Abstract(参考訳): 近年、強化学習は、クレジット割り当て問題など、マルチエージェントドメインにおけるいくつかの課題に直面している。
価値関数の分解は、分散実行(CTDE)パラダイムによる集中的なトレーニングの下で、クレジット代入問題を処理するための有望な方法として現れます。
しかし、既存の値関数の分解方法は、テスト時にチームメイトの新しい構成に適応するアドホックな協調には対応できない。
具体的には、これらの手法はエージェント間の関係を明示的に利用せず、入力の異なるサイズに適応できない。
これらの制約に対処するため、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAはグラフベースの関係エンコーダを利用してエージェント間のトポロジ構造を符号化する。
さらにracaは、一定の数のパラメータを持つ任意の数のチームメイトに一般化できる注意に基づく観察抽象化メカニズムを利用している。
実験により,starcraftiiマイクロマネジメントベンチマークおよびアドホック協調シナリオのベースライン手法を上回った。
関連論文リスト
- Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。