論文の概要: Multi-Agent Collaboration via Reward Attribution Decomposition
- arxiv url: http://arxiv.org/abs/2010.08531v1
- Date: Fri, 16 Oct 2020 17:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:05:13.183017
- Title: Multi-Agent Collaboration via Reward Attribution Decomposition
- Title(参考訳): Reward Attribution Decompositionによるマルチエージェントコラボレーション
- Authors: Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph
E. Gonzalez, Yuandong Tian
- Abstract要約: 本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 75.36911959491228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-agent reinforcement learning (MARL) have achieved
super-human performance in games like Quake 3 and Dota 2. Unfortunately, these
techniques require orders-of-magnitude more training rounds than humans and
don't generalize to new agent configurations even on the same game. In this
work, we propose Collaborative Q-learning (CollaQ) that achieves
state-of-the-art performance in the StarCraft multi-agent challenge and
supports ad hoc team play. We first formulate multi-agent collaboration as a
joint optimization on reward assignment and show that each agent has an
approximately optimal policy that decomposes into two parts: one part that only
relies on the agent's own state, and the other part that is related to states
of nearby agents. Following this novel finding, CollaQ decomposes the
Q-function of each agent into a self term and an interactive term, with a
Multi-Agent Reward Attribution (MARA) loss that regularizes the training.
CollaQ is evaluated on various StarCraft maps and shows that it outperforms
existing state-of-the-art techniques (i.e., QMIX, QTRAN, and VDN) by improving
the win rate by 40% with the same number of samples. In the more challenging ad
hoc team play setting (i.e., reweight/add/remove units without re-training or
finetuning), CollaQ outperforms previous SoTA by over 30%.
- Abstract(参考訳): マルチエージェント強化学習(MARL)の最近の進歩は、Quake 3やDota 2のようなゲームで超人的パフォーマンスを実現している。
残念なことに、これらの技術は人間よりも訓練ラウンドの順序が必要であり、同じゲームでも新しいエージェント構成に一般化しない。
本稿では,StarCraftのマルチエージェントチャレンジにおける最先端のパフォーマンスを実現し,アドホックチームプレイをサポートするコラボレーティブQ-ラーニング(CollaQ)を提案する。
まず、報酬割当に関する共同最適化としてマルチエージェント協調を定式化し、各エージェントが、エージェント自身の状態のみに依存する部分と、近くのエージェントの状態に関連する部分の2つの部分に分けられる、ほぼ最適なポリシーを持っていることを示す。
この新たな発見に続いて、collaqは各エージェントのq関数を自己項と対話項に分解し、トレーニングを規則化するマルチエージェント報酬帰属(mara)損失を与える。
CollaQは様々なStarCraftマップで評価され、同じサンプル数で勝利率を40%向上させることで、既存の最先端技術(QMIX、QTRAN、VDN)よりも優れていることを示す。
より難しいアドホックなチームプレイ設定(再トレーニングや微調整を行わないリウェイト/加算/リモーブユニット)では、collaqは以前のsomaを30%以上上回っている。
関連論文リスト
- PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-05T03:59:01Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Exploring the Benefits of Teams in Multiagent Learning [5.334505575267924]
組織心理学(OP)に触発された強化学習(RL)エージェントのためのマルチエージェントチームの新しいモデルを提案する。
我々は、協力しないインセンティブにもかかわらず、チームに分かれたエージェントが協調的な社会政策を開発することを発見した。
エージェントはチームの創発的な役割をコーディネートし、学習し、すべてのエージェントの利害関係が整った時よりも高い報酬を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T21:14:03Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z) - On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。
以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文 参考訳(メタデータ) (2020-03-04T01:14:27Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。