論文の概要: Battlesnake Challenge: A Multi-agent Reinforcement Learning Playground
with Human-in-the-loop
- arxiv url: http://arxiv.org/abs/2007.10504v1
- Date: Mon, 20 Jul 2020 21:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 10:10:59.995714
- Title: Battlesnake Challenge: A Multi-agent Reinforcement Learning Playground
with Human-in-the-loop
- Title(参考訳): Battlesnake Challenge: マルチエージェント強化学習プレイグラウンド
- Authors: Jonathan Chung, Anna Luo, Xavier Raffin, Scott Perry
- Abstract要約: バトルネークチャレンジ(Battlesnake Challenge)は、ヒューマン・イン・ザ・ループ(HILL)を用いたマルチエージェント強化学習の枠組みである。
オフラインマルチエージェントモデルトレーニングのためのシミュレーションゲーム環境を開発し,学習を改善するためのベースラインのセットを同定する。
以上の結果から,提案したHILLエージェントはHILLを使わずに常に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.9691097886836944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Battlesnake Challenge, a framework for multi-agent
reinforcement learning with Human-In-the-Loop Learning (HILL). It is developed
upon Battlesnake, a multiplayer extension of the traditional Snake game in
which 2 or more snakes compete for the final survival. The Battlesnake
Challenge consists of an offline module for model training and an online module
for live competitions. We develop a simulated game environment for the offline
multi-agent model training and identify a set of baseline heuristics that can
be instilled to improve learning. Our framework is agent-agnostic and
heuristics-agnostic such that researchers can design their own algorithms,
train their models, and demonstrate in the online Battlesnake competition. We
validate the framework and baseline heuristics with our preliminary
experiments. Our results show that agents with the proposed HILL methods
consistently outperform agents without HILL. Besides, heuristics of reward
manipulation had the best performance in the online competition. We open source
our framework at https://github.com/awslabs/sagemaker-battlesnake-ai.
- Abstract(参考訳): 本稿では,Human-In-the-Loop Learning(HILL)を用いたマルチエージェント強化学習のためのフレームワークであるBattlesnake Challengeを紹介する。
従来のスネークゲームのマルチプレイヤー拡張であるBattlesnakeに基づいて開発され、2つ以上のヘビが最後の生存を競う。
battlesnake challengeは、モデルトレーニング用のオフラインモジュールと、ライブコンペティション用のオンラインモジュールで構成されている。
本研究では,オフラインマルチエージェントモデル学習のためのシミュレーションゲーム環境を開発し,学習を改善するためのベースラインヒューリスティックのセットを同定する。
私たちのフレームワークはエージェント非依存でヒューリスティックス非依存なので、研究者は独自のアルゴリズムを設計し、モデルをトレーニングし、オンラインバトルスネークコンペティションでデモンストレーションすることができます。
予備実験でフレームワークとベースラインヒューリスティックスを検証する。
その結果,提案手法を用いたエージェントはHILLを使わずにエージェントよりも常に優れていた。
さらに報酬操作のヒューリスティックスはオンライン競争で最高のパフォーマンスを示した。
私たちはフレームワークをhttps://github.com/awslabs/sagemaker-battlesnake-aiでオープンソースにしています。
関連論文リスト
- Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - Megaverse: Simulating Embodied Agents at One Million Experiences per
Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。
MegaverseはDeepMind Labより最大70倍速い。
私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2021-07-17T03:16:25Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。