論文の概要: TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations
- arxiv url: http://arxiv.org/abs/2110.04507v1
- Date: Sat, 9 Oct 2021 08:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 01:22:21.589931
- Title: TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations
- Title(参考訳): TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して
- Authors: Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu,
Deheng Ye, Ting Chen, Jun Zhu
- Abstract要約: Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
- 参考スコア(独自算出の注目度): 31.596018856092513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has achieved super-human performance on
complex video games (e.g., StarCraft II and Dota II). However, current DRL
systems still suffer from challenges of multi-agent coordination, sparse
rewards, stochastic environments, etc. In seeking to address these challenges,
we employ a football video game, e.g., Google Research Football (GRF), as our
testbed and develop an end-to-end learning-based AI system (denoted as TiKick
to complete this challenging task. In this work, we first generated a large
replay dataset from the self-playing of single-agent experts, which are
obtained from league training. We then developed a distributed learning system
and new offline algorithms to learn a powerful multi-agent AI from the fixed
single-agent dataset. To the best of our knowledge, Tikick is the first
learning-based AI system that can take over the multi-agent Google Research
Football full game, while previous work could either control a single agent or
experiment on toy academic scenarios. Extensive experiments further show that
our pre-trained model can accelerate the training process of the modern
multi-agent algorithm and our method achieves state-of-the-art performances on
various academic scenarios.
- Abstract(参考訳): 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。
しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。
これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)のようなフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。
本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。
そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。
われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。
さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - TiZero: Mastering Multi-Agent Football with Curriculum Learning and
Self-Play [19.98100026335148]
TiZeroは、スクラッチから学習する自己進化型マルチエージェントシステムである。
これは、Google Research Footballの環境において、これまでのシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-02-15T08:19:18Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。