論文の概要: ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency
- arxiv url: http://arxiv.org/abs/2211.16068v1
- Date: Tue, 29 Nov 2022 10:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:50:57.298268
- Title: ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency
- Title(参考訳): ACE:双方向行動依存型協調型マルチエージェントQ-ラーニング
- Authors: Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong
Yang, Yu Liu, Wanli Ouyang
- Abstract要約: マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
- 参考スコア(独自算出の注目度): 65.28061634546577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) suffers from the non-stationarity
problem, which is the ever-changing targets at every iteration when multiple
agents update their policies at the same time. Starting from first principle,
in this paper, we manage to solve the non-stationarity problem by proposing
bidirectional action-dependent Q-learning (ACE). Central to the development of
ACE is the sequential decision-making process wherein only one agent is allowed
to take action at one time. Within this process, each agent maximizes its value
function given the actions taken by the preceding agents at the inference
stage. In the learning phase, each agent minimizes the TD error that is
dependent on how the subsequent agents have reacted to their chosen action.
Given the design of bidirectional dependency, ACE effectively turns a
multiagent MDP into a single-agent MDP. We implement the ACE framework by
identifying the proper network representation to formulate the action
dependency, so that the sequential decision process is computed implicitly in
one forward pass. To validate ACE, we compare it with strong baselines on two
MARL benchmarks. Empirical experiments demonstrate that ACE outperforms the
state-of-the-art algorithms on Google Research Football and StarCraft
Multi-Agent Challenge by a large margin. In particular, on SMAC tasks, ACE
achieves 100% success rate on almost all the hard and super-hard maps. We
further study extensive research problems regarding ACE, including extension,
generalization, and practicability. Code is made available to facilitate
further research.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、複数のエージェントが同時にポリシーを更新するたびに常に変化する目標である非定常性問題に悩まされる。
本稿では,第一原理から,双方向行動依存型q-learning(ace)を提案することにより,非定常問題を解決する。
ACEの開発の中心は、一度に1人のエージェントだけが行動を起こすという、シーケンシャルな意思決定プロセスである。
このプロセスの中で、各エージェントは、推論段階で前のエージェントが取るアクションを考慮すれば、その値関数を最大化する。
学習フェーズでは、各エージェントは、選択されたアクションに対して後続のエージェントがどのように反応したかに依存するTDエラーを最小化する。
双方向依存の設計を考えると、ACE は事実上マルチエージェント MDP を単一エージェント MDP に変換する。
我々は、アクション依存を定式化するために適切なネットワーク表現を識別してACEフレームワークを実装し、シーケンシャルな決定プロセスが1つのフォワードパスで暗黙的に計算されるようにする。
ACEを検証するために、2つのMARLベンチマークの強いベースラインと比較する。
実証実験によれば、aceはgoogle research footballやstarcraft multi-agent challengeで最先端のアルゴリズムを上回る。
特に SMAC のタスクでは、ACE はほとんど全てのハードマップと超ハードマップで100%の成功率を達成する。
さらに,拡張性,一般化性,実践性など,ACEに関する広範な研究課題について検討する。
コードはさらなる研究を促進するために提供されている。
関連論文リスト
- Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。
既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。
本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文 参考訳(メタデータ) (2023-01-09T14:53:38Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。