論文の概要: Value-based CTDE Methods in Symmetric Two-team Markov Game: from
Cooperation to Team Competition
- arxiv url: http://arxiv.org/abs/2211.11886v1
- Date: Mon, 21 Nov 2022 22:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 19:30:32.306525
- Title: Value-based CTDE Methods in Symmetric Two-team Markov Game: from
Cooperation to Team Competition
- Title(参考訳): 対称2チームマルコフゲームにおける値ベースCTDE法:協力からチーム競争へ
- Authors: Pascal Leroy and Jonathan Pisane and Damien Ernst
- Abstract要約: 混合協調競争環境における協調的価値ベース手法の評価を行った。
集中型トレーニングと分散型実行パラダイムに基づく3つのトレーニング手法を選択した。
実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
- 参考スコア(独自算出の注目度): 3.828689444527739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we identify the best learning scenario to train a team of
agents to compete against multiple possible strategies of opposing teams. We
evaluate cooperative value-based methods in a mixed cooperative-competitive
environment. We restrict ourselves to the case of a symmetric, partially
observable, two-team Markov game. We selected three training methods based on
the centralised training and decentralised execution (CTDE) paradigm: QMIX,
MAVEN and QVMix. For each method, we considered three learning scenarios
differentiated by the variety of team policies encountered during training. For
our experiments, we modified the StarCraft Multi-Agent Challenge environment to
create competitive environments where both teams could learn and compete
simultaneously. Our results suggest that training against multiple evolving
strategies achieves the best results when, for scoring their performances,
teams are faced with several strategies.
- Abstract(参考訳): 本稿では,エージェントのチームに対して,対戦するチームの複数の戦略に対抗するための最善の学習シナリオを特定する。
混合協調競争環境における協調的価値ベース手法の評価を行った。
我々は対称で部分的に観察可能な2チームマルコフゲームの場合に限定される。
我々は,集中型トレーニングと分散実行(CTDE)パラダイムに基づく3つのトレーニング手法を選択した。
それぞれの方法について,トレーニング中に遭遇したさまざまなチーム方針によって3つの学習シナリオを区別した。
実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
その結果、複数の進化戦略に対するトレーニングは、パフォーマンスをスコアする上で、チームがいくつかの戦略に直面した場合に、最高の結果が得られることが示唆された。
関連論文リスト
- CompetEvo: Towards Morphological Evolution from Competition [60.69068909395984]
エージェントの設計と戦術を共進化させる競争進化(CompetEvo)を提案する。
その結果,エージェントがより適切な設計と戦略を進化させることができることがわかった。
論文 参考訳(メタデータ) (2024-05-28T15:53:02Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity [6.940758395823777]
アドホックチームワーク(Ad hoc teamwork、AHT)は、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、手作りのチームメイトポリシーの多様なセットで学習者をトレーニングすることで、AHTの課題に対処する。
近年,情報理論の多様性指標を最適化することにより,チームメイトポリシーを用いて学習者の堅牢性を向上させる手法が提案されている。
論文 参考訳(メタデータ) (2022-07-28T14:58:32Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - Learning to Play Soccer From Scratch: Sample-Efficient Emergent
Coordination through Curriculum-Learning and Competition [1.675857332621569]
本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。
この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。
この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。
論文 参考訳(メタデータ) (2021-03-09T01:57:16Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - An analysis of Reinforcement Learning applied to Coach task in IEEE Very
Small Size Soccer [2.5400028272658144]
本稿では、強化学習(RL)に基づくコーチングタスクのエンドツーエンドアプローチを提案する。
シミュレーション環境では、3つの異なるチームに対して2つのRLポリシーをトレーニングしました。
結果はVSSSリーグのトップチームの1つに対して評価された。
論文 参考訳(メタデータ) (2020-11-23T23:10:06Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。