論文の概要: An Empirical Study on Google Research Football Multi-agent Scenarios
- arxiv url: http://arxiv.org/abs/2305.09458v1
- Date: Tue, 16 May 2023 14:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:49:49.877598
- Title: An Empirical Study on Google Research Football Multi-agent Scenarios
- Title(参考訳): Google Research Football Multi-Adnt シナリオに関する実証的研究
- Authors: Yan Song, He Jiang, Zheng Tian, Haifeng Zhang, Yingping Zhang,
Jiangcheng Zhu, Zonghong Dai, Weinan Zhang, Jun Wang,
- Abstract要約: トレーニングフレームワークLight-MALibをオープンソースとして公開しています。
我々は、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
- 参考スコア(独自算出の注目度): 30.926070192524193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few multi-agent reinforcement learning (MARL) research on Google Research
Football (GRF) focus on the 11v11 multi-agent full-game scenario and to the
best of our knowledge, no open benchmark on this scenario has been released to
the public. In this work, we fill the gap by providing a population-based MARL
training pipeline and hyperparameter settings on multi-agent football scenario
that outperforms the bot with difficulty 1.0 from scratch within 2 million
steps. Our experiments serve as a reference for the expected performance of
Independent Proximal Policy Optimization (IPPO), a state-of-the-art multi-agent
reinforcement learning algorithm where each agent tries to maximize its own
policy independently across various training configurations. Meanwhile, we
open-source our training framework Light-MALib which extends the MALib codebase
by distributed and asynchronized implementation with additional analytical
tools for football games. Finally, we provide guidance for building strong
football AI with population-based training and release diverse pretrained
policies for benchmarking. The goal is to provide the community with a head
start for whoever experiment their works on GRF and a simple-to-use
population-based training framework for further improving their agents through
self-play. The implementation is available at
https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football.
- Abstract(参考訳): Google Research Football(GRF)のマルチエージェント強化学習(MARL)研究は,11v11マルチエージェントフルゲームシナリオと私たちの知る限りでは,このシナリオに関するオープンベンチマークは公開されていない。
本研究では,マルチエージェント・フットボールシナリオにおける人口ベースのmarlトレーニングパイプラインとハイパーパラメータ設定を提供することで,200万ステップ以内でボットをスクラッチから1.0に上回り,そのギャップを埋める。
実験は,各エージェントが様々なトレーニング構成において独立して独自のポリシーを最大化しようとする,最先端のマルチエージェント強化学習アルゴリズムであるippo(independent proximal policy optimization)の期待性能の基準となる。
一方,我々はトレーニングフレームワークLight-MALibをオープンソースとして公開し,MALibのコードベースを拡張した。
最後に、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
目標は、GRFで実験する人のためのヘッドスタートと、セルフプレイを通じてエージェントをさらに改善するためのシンプルな人口ベースのトレーニングフレームワークを提供することだ。
実装はhttps://github.com/Shanghai-Digital-Brain-Laboratory/DB-Footballで公開されている。
関連論文リスト
- MARL-LNS: Cooperative Multi-agent Reinforcement Learning via Large Neighborhoods Search [27.807695570974644]
本稿では,エージェントのサブセットを交互にトレーニングすることで,問題に対処するための一般的なトレーニングフレームワークであるMARL-LNSを提案する。
我々のアルゴリズムは、トレーニング時間の少なくとも10%を自動で削減し、元のアルゴリズムと同じ最終スキルレベルに到達できることを示します。
論文 参考訳(メタデータ) (2024-04-03T22:51:54Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。