論文の概要: Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.00285v1
- Date: Tue, 1 Jun 2021 07:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:10:32.426520
- Title: Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのshapley counterfactualcredits
- Authors: Jiahui Li, Kun Kuang, Baoxiang Wang, Furui Liu, Long Chen, Fei Wu and
Jun Xiao
- Abstract要約: 本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
- 参考スコア(独自算出の注目度): 34.856522993714535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized Training with Decentralized Execution (CTDE) has been a popular
paradigm in cooperative Multi-Agent Reinforcement Learning (MARL) settings and
is widely used in many real applications. One of the major challenges in the
training process is credit assignment, which aims to deduce the contributions
of each agent according to the global rewards. Existing credit assignment
methods focus on either decomposing the joint value function into individual
value functions or measuring the impact of local observations and actions on
the global value function. These approaches lack a thorough consideration of
the complicated interactions among multiple agents, leading to an unsuitable
assignment of credit and subsequently mediocre results on MARL. We propose
Shapley Counterfactual Credit Assignment, a novel method for explicit credit
assignment which accounts for the coalition of agents. Specifically, Shapley
Value and its desired properties are leveraged in deep MARL to credit any
combinations of agents, which grants us the capability to estimate the
individual credit for each agent. Despite this capability, the main technical
difficulty lies in the computational complexity of Shapley Value who grows
factorially as the number of agents. We instead utilize an approximation method
via Monte Carlo sampling, which reduces the sample complexity while maintaining
its effectiveness. We evaluate our method on StarCraft II benchmarks across
different scenarios. Our method outperforms existing cooperative MARL
algorithms significantly and achieves the state-of-the-art, with especially
large margins on tasks with more severe difficulties.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)は、協調的マルチエージェント強化学習(MARL)設定において一般的なパラダイムであり、多くの実アプリケーションで広く利用されている。
トレーニングプロセスにおける大きな課題の1つは、グローバルな報酬に応じて各エージェントの貢献を推論することを目的としたクレジット割り当てである。
既存のクレジット割当手法は、結合値関数を個々の値関数に分解するか、局所的な観測と行動がグローバルな値関数に与える影響を測定することに焦点を当てている。
これらのアプローチは、複数のエージェント間の複雑な相互作用を十分に考慮していないため、クレジットの割り当てが不適当であり、MARL上でのメディカルな結果をもたらす。
本稿では,エージェントの連立を考慮に入れた明示的なクレジット割当手法であるshapley counterfactual credit assignmentを提案する。
具体的には、shapley値とその望ましい特性は、エージェントの組み合わせを信用するためにdeep marlで活用され、各エージェントの個々のクレジットを見積もる能力を与えてくれます。
この能力にもかかわらず、主な技術的困難は、エージェントの数として要因的に成長するShapley Valueの計算複雑性にある。
代わりにモンテカルロサンプリングによる近似法を用いて,その有効性を維持しつつ,サンプルの複雑さを低減する。
異なるシナリオにわたるStarCraft IIベンチマークにおいて,本手法の評価を行った。
本手法は,既存の協調的marlアルゴリズムを著しく上回り,特に困難度の高いタスクにおいて,最先端のマージンを達成する。
関連論文リスト
- Efficiently Quantifying Individual Agent Importance in Cooperative MARL [4.653136482223517]
エージェント重要度と呼ばれる個々のエージェントの貢献度を定量化する効率的な方法に差分報酬を適用する。
計算値が真のShapley値と強く相関していることを示す。
論文 参考訳(メタデータ) (2023-12-13T19:09:37Z) - Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance [96.73189436721465]
まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
本稿では,学習可能なマルチラウンド通信プロトコルを提案する。
2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T16:45:40Z) - STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning [10.102447181869005]
本研究では,時間次元と空間次元の両方でクレジット代入を学習する新しい手法を提案する。
提案手法は, 時間的信用を効果的に割り当て, 最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T10:09:03Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文 参考訳(メタデータ) (2022-01-04T17:05:07Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。