論文の概要: Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach
- arxiv url: http://arxiv.org/abs/2407.00662v1
- Date: Sun, 30 Jun 2024 11:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:07:11.775342
- Title: Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach
- Title(参考訳): ポンマーマンのマルチエージェント学習--カリキュラム学習と人口によるセルフプレイアプローチ
- Authors: Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu,
- Abstract要約: Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
- 参考スコア(独自算出の注目度): 11.740631954398292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pommerman is a multi-agent environment that has received considerable attention from researchers in recent years. This environment is an ideal benchmark for multi-agent training, providing a battleground for two teams with communication capabilities among allied agents. Pommerman presents significant challenges for model-free reinforcement learning due to delayed action effects, sparse rewards, and false positives, where opponent players can lose due to their own mistakes. This study introduces a system designed to train multi-agent systems to play Pommerman using a combination of curriculum learning and population-based self-play. We also tackle two challenging problems when deploying the multi-agent training system for competitive games: sparse reward and suitable matchmaking mechanism. Specifically, we propose an adaptive annealing factor based on agents' performance to adjust the dense exploration reward during training dynamically. Additionally, we implement a matchmaking mechanism utilizing the Elo rating system to pair agents effectively. Our experimental results demonstrate that our trained agent can outperform top learning agents without requiring communication among allied agents.
- Abstract(参考訳): Pommermanはマルチエージェント環境であり、近年研究者からかなりの注目を集めている。
この環境はマルチエージェントトレーニングの理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
Pommerman氏は、遅延アクション効果、スパース報酬、偽陽性によるモデルレス強化学習において、対戦相手が自身のミスで負ける可能性のある重要な課題を提示している。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
また,競争ゲーム用マルチエージェントトレーニングシステムを展開する際の課題として,スパース報酬と適切なマッチング機構の2つに対処する。
具体的には,エージェントの性能に基づく適応型アニーリング係数を提案し,トレーニング中に高密度探索報酬を動的に調整する。
さらに,エロ評価システムを利用したマッチング機構を効果的に実装する。
実験の結果,訓練されたエージェントは,同盟エージェント間のコミュニケーションを必要とせず,トップラーニングエージェントよりも優れていた。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Exploring the Benefits of Teams in Multiagent Learning [5.334505575267924]
組織心理学(OP)に触発された強化学習(RL)エージェントのためのマルチエージェントチームの新しいモデルを提案する。
我々は、協力しないインセンティブにもかかわらず、チームに分かれたエージェントが協調的な社会政策を開発することを発見した。
エージェントはチームの創発的な役割をコーディネートし、学習し、すべてのエージェントの利害関係が整った時よりも高い報酬を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T21:14:03Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Two-stage training algorithm for AI robot soccer [2.0757564643017092]
異種エージェントの学習性能を向上させるために,二段階多種集中訓練を提案する。
提案手法は,5対5のAIロボットサッカーを用いて検証を行う。
論文 参考訳(メタデータ) (2021-04-13T04:24:13Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。