論文の概要: Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition
- arxiv url: http://arxiv.org/abs/2105.08692v1
- Date: Tue, 18 May 2021 17:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:58:53.326718
- Title: Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition
- Title(参考訳): 動的チーム構成のためのコーチプレイヤマルチエージェント強化学習
- Authors: Bo Liu, Qiang Liu, Peter Stone, Animesh Garg, Yuke Zhu and Animashree
Anandkumar
- Abstract要約: 現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
- 参考スコア(独自算出の注目度): 88.26752130107259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world multiagent systems, agents with different capabilities may join
or leave without altering the team's overarching goals. Coordinating teams with
such dynamic composition is challenging: the optimal team strategy varies with
the composition. We propose COPA, a coach-player framework to tackle this
problem. We assume the coach has a global view of the environment and
coordinates the players, who only have partial views, by distributing
individual strategies. Specifically, we 1) adopt the attention mechanism for
both the coach and the players; 2) propose a variational objective to
regularize learning; and 3) design an adaptive communication method to let the
coach decide when to communicate with the players. We validate our methods on a
resource collection task, a rescue game, and the StarCraft micromanagement
tasks. We demonstrate zero-shot generalization to new team compositions. Our
method achieves comparable or better performance than the setting where all
players have a full view of the environment. Moreover, we see that the
performance remains high even when the coach communicates as little as 13% of
the time using the adaptive communication strategy.
- Abstract(参考訳): 現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱することができる。
このようなダイナミックな構成でチームをコーディネートすることは難しい。
この問題に対処するためのコーチ・プレイヤ・フレームワークであるCOPAを提案する。
コーチは環境をグローバルに把握し、個々の戦略を分散することで、部分的な視点しか持たないプレイヤーをコーディネートしていると仮定する。
具体的には,1) コーチと選手の双方に注意機構を導入し,2) 学習の規則化のための変動目標を提案し,3) コーチが選手といつコミュニケーションをするかを決めるための適応的なコミュニケーション手法を設計する。
本手法は,資源収集タスク,救助ゲーム,およびStarCraftマイクロマネジメントタスクにおいて検証する。
新しいチーム構成にゼロショットの一般化を実証する。
本手法は,全プレイヤーが環境をフルに把握できる環境よりも,同等あるいは優れた性能を実現する。
また,適応的なコミュニケーション戦略を用いることで,コーチが13%の時間でコミュニケーションを行う場合でも,パフォーマンスは高いままである。
関連論文リスト
- Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Value-based CTDE Methods in Symmetric Two-team Markov Game: from
Cooperation to Team Competition [3.828689444527739]
混合協調競争環境における協調的価値ベース手法の評価を行った。
集中型トレーニングと分散型実行パラダイムに基づく3つのトレーニング手法を選択した。
実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
論文 参考訳(メタデータ) (2022-11-21T22:25:55Z) - Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。
ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文 参考訳(メタデータ) (2022-04-17T11:22:01Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - An analysis of Reinforcement Learning applied to Coach task in IEEE Very
Small Size Soccer [2.5400028272658144]
本稿では、強化学習(RL)に基づくコーチングタスクのエンドツーエンドアプローチを提案する。
シミュレーション環境では、3つの異なるチームに対して2つのRLポリシーをトレーニングしました。
結果はVSSSリーグのトップチームの1つに対して評価された。
論文 参考訳(メタデータ) (2020-11-23T23:10:06Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。