論文の概要: Mastering Asymmetrical Multiplayer Game with Multi-Agent
Asymmetric-Evolution Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.10124v1
- Date: Thu, 20 Apr 2023 07:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 14:21:11.535623
- Title: Mastering Asymmetrical Multiplayer Game with Multi-Agent
Asymmetric-Evolution Reinforcement Learning
- Title(参考訳): 多エージェント非対称進化強化学習による非対称マルチプレイヤーゲーム
- Authors: Chenglu Sun, Yichi Zhang, Yu Zhang, Ziling Lu, Jingbin Liu, Sijia Xu
and Weidong Zhang (AI Lab, Netease)
- Abstract要約: 非対称マルチプレイヤーゲーム (AMP game) は、ゲーム内で複数の種類のエージェントが競合したり協力したりする人気ゲームジャンルである。
非対称な環境下での非バランス性のため、AMPゲームでトップの人間プレイヤーを倒すことのできる強力なエージェントを、典型的なセルフプレイトレーニング手法で訓練することは困難である。
AMPゲームにおいて,複数種類のエージェントを同時に学習できる新しいマルチエージェント強化学習フレームワークである非対称進化学習(AET)を提案する。
- 参考スコア(独自算出の注目度): 8.628547849796615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Asymmetrical multiplayer (AMP) game is a popular game genre which involves
multiple types of agents competing or collaborating with each other in the
game. It is difficult to train powerful agents that can defeat top human
players in AMP games by typical self-play training method because of
unbalancing characteristics in their asymmetrical environments. We propose
asymmetric-evolution training (AET), a novel multi-agent reinforcement learning
framework that can train multiple kinds of agents simultaneously in AMP game.
We designed adaptive data adjustment (ADA) and environment randomization (ER)
to optimize the AET process. We tested our method in a complex AMP game named
Tom \& Jerry, and our AIs trained without using any human data can achieve a
win rate of 98.5% against top human players over 65 matches. The ablation
experiments indicated that the proposed modules are beneficial to the
framework.
- Abstract(参考訳): 非対称マルチプレイヤーゲーム(asymmetrical multiplayer game)は、ゲーム内の複数のエージェントが互いに競合したり協力したりすることを含む人気ゲームジャンルである。
ampゲームでトッププレイヤーを倒すことのできる強力なエージェントを、非対称環境におけるバランスの取れない特性から、典型的な自己プレイ訓練手法で訓練することは困難である。
aet(asymmetric-evolution training)は,ampゲームにおいて複数のエージェントを同時にトレーニングできる,新しいマルチエージェント強化学習フレームワークである。
AETプロセスの最適化のために、適応データ調整(ADA)と環境ランダム化(ER)を設計した。
我々はTom \&Jerryという複雑なAMPゲームで我々の手法をテストし、人間のデータを使用しずに訓練されたAIは65試合でトップの人間のプレイヤーに対して98.5%の勝利率を達成することができた。
アブレーション実験は,提案するモジュールがフレームワークに有益であることを示唆した。
関連論文リスト
- Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Symmetry-Breaking Augmentations for Ad Hoc Teamwork [10.014956508924842]
多くのコラボレーティブな設定では、人工知能(AI)エージェントは未知または以前は観測されていなかった戦略を使用する新しいチームメイトに適応できなければならない。
我々は,SBA(Symsymmetric-breaking Augmentation)を導入し,SBA(Symsymmetric-Flipping Operation)を適用して,チームメイトの行動の多様性を高める。
実験的な2つの設定でこれを実証し,従来のアドホックチームワークによりカードゲーム「はなび」におけるアプローチが改善したことを示す。
論文 参考訳(メタデータ) (2024-02-15T14:49:28Z) - Toward Human-AI Alignment in Large-Scale Multi-Player Games [24.784173202415687]
我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-05T22:55:33Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Mimicking Playstyle by Adapting Parameterized Behavior Trees in RTS
Games [0.0]
行動木(BT)は、ゲームにおける人工知能(AI)の分野に影響を与えた。
BTは手作りのBTの複雑さをほとんど難なくし、エラーを起こしやすくした。
この分野の最近のトレンドはAIエージェントの自動作成に焦点を当てている。
本稿では,人間のゲームプレイを模倣し一般化する,AIエージェントの半自動構築手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:36:28Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。