Fugu-MT 論文翻訳(概要): Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition

論文の概要: Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition

arxiv url: http://arxiv.org/abs/2105.08692v1
Date: Tue, 18 May 2021 17:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-19 14:58:53.326718
Title: Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition
Title（参考訳）: 動的チーム構成のためのコーチプレイヤマルチエージェント強化学習
Authors: Bo Liu, Qiang Liu, Peter Stone, Animesh Garg, Yuke Zhu and Animashree Anandkumar
Abstract要約: 現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。 1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
参考スコア（独自算出の注目度）: 88.26752130107259
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In real-world multiagent systems, agents with different capabilities may join or leave without altering the team's overarching goals. Coordinating teams with such dynamic composition is challenging: the optimal team strategy varies with the composition. We propose COPA, a coach-player framework to tackle this problem. We assume the coach has a global view of the environment and coordinates the players, who only have partial views, by distributing individual strategies. Specifically, we 1) adopt the attention mechanism for both the coach and the players; 2) propose a variational objective to regularize learning; and 3) design an adaptive communication method to let the coach decide when to communicate with the players. We validate our methods on a resource collection task, a rescue game, and the StarCraft micromanagement tasks. We demonstrate zero-shot generalization to new team compositions. Our method achieves comparable or better performance than the setting where all players have a full view of the environment. Moreover, we see that the performance remains high even when the coach communicates as little as 13% of the time using the adaptive communication strategy.
Abstract（参考訳）: 現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱することができる。このようなダイナミックな構成でチームをコーディネートすることは難しい。この問題に対処するためのコーチ・プレイヤ・フレームワークであるCOPAを提案する。コーチは環境をグローバルに把握し、個々の戦略を分散することで、部分的な視点しか持たないプレイヤーをコーディネートしていると仮定する。具体的には,1) コーチと選手の双方に注意機構を導入し,2) 学習の規則化のための変動目標を提案し,3) コーチが選手といつコミュニケーションをするかを決めるための適応的なコミュニケーション手法を設計する。本手法は,資源収集タスク,救助ゲーム,およびStarCraftマイクロマネジメントタスクにおいて検証する。新しいチーム構成にゼロショットの一般化を実証する。本手法は,全プレイヤーが環境をフルに把握できる環境よりも,同等あるいは優れた性能を実現する。また,適応的なコミュニケーション戦略を用いることで,コーチが13%の時間でコミュニケーションを行う場合でも,パフォーマンスは高いままである。

関連論文リスト

CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning [55.425576693143285]
CPMbius(CPMobius)は推論モデルのデータフリー強化学習のためのCoach-Playerパラダイムである。従来の対戦型自己プレーとは異なり、CPMbiusはコーチとプレーヤを独立しているが協力的な役割として扱う。 CPMbiusは、外部のトレーニングデータに頼ることなく、大幅に改善され、既存の教師なしアプローチよりも優れています。
論文参考訳（メタデータ） (2026-02-03T01:38:53Z)
Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards [0.41562334038629595]
現実世界のマルチエージェントシステムではアドホックなチーム編成が必要であり、エージェントはそれまで目に見えない他のチームメイトと調整して、ゼロショットでタスクを解決しなければならない。ゼロショット転送設定において、事前訓練されたすべてのポリシーを活用することを提案する。この問題をアドホックなマルチエージェントマルコフ決定プロセスとして形式化し、一般化されたポリシー改善と差分報酬という2つの重要なアイデアを用いたソリューションを提案する。当社のアルゴリズムであるGPAT(Generalized Policy Improvement for Adhoc Teaming)が,3つの模擬環境(協調採餌,捕食者・捕食者・捕食者・捕食者・捕食者・捕食者・捕食者)における新規チームへのゼロショット移行を成功に導くことを実証的に実証した。
論文参考訳（メタデータ） (2025-10-17T19:55:25Z)
A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon [31.012853711707965]
Pok'emon Video Game Championships (VGC) は、チーム構成が極端に広い領域である。重要なインフラストラクチャを提供し、評価プロトコルを標準化し、ヒューマンプレイデータセットを提供するベンチマークであるVGC-Benchを紹介します。エージェントが単一チーム構成でトレーニングされ評価される制限された環境では、我々のメソッドはプロのVGC競合相手に勝つことができる。
論文参考訳（メタデータ） (2025-06-12T03:19:39Z)
Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文参考訳（メタデータ） (2023-12-19T20:01:42Z)
All by Myself: Learning Individualized Competitive Behaviour with a Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-10-02T08:11:07Z)
Value-based CTDE Methods in Symmetric Two-team Markov Game: from Cooperation to Team Competition [3.828689444527739]
混合協調競争環境における協調的価値ベース手法の評価を行った。集中型トレーニングと分散型実行パラダイムに基づく3つのトレーニング手法を選択した。実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
論文参考訳（メタデータ） (2022-11-21T22:25:55Z)
Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文参考訳（メタデータ） (2022-04-17T11:22:01Z)
Pick Your Battles: Interaction Graphs as Population-Level Objectives for Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文参考訳（メタデータ） (2021-10-08T11:29:52Z)
Multi-Agent Coordination in Adversarial Environments through Signal Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文参考訳（メタデータ） (2021-02-09T18:44:16Z)
An analysis of Reinforcement Learning applied to Coach task in IEEE Very Small Size Soccer [2.5400028272658144]
本稿では、強化学習(RL)に基づくコーチングタスクのエンドツーエンドアプローチを提案する。シミュレーション環境では、3つの異なるチームに対して2つのRLポリシーをトレーニングしました。結果はVSSSリーグのトップチームの1つに対して評価された。
論文参考訳（メタデータ） (2020-11-23T23:10:06Z)
Natural Emergence of Heterogeneous Strategies in Artificially Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文参考訳（メタデータ） (2020-07-06T22:35:56Z)
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文参考訳（メタデータ） (2020-04-08T14:11:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。