論文の概要: A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon
- arxiv url: http://arxiv.org/abs/2506.10326v1
- Date: Thu, 12 Jun 2025 03:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.554406
- Title: A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon
- Title(参考訳): 競争力のあるポケモンにおける多人数チーム戦略の一般化のためのベンチマーク
- Authors: Cameron Angliss, Jiaxun Cui, Jiaheng Hu, Arrasy Rahman, Peter Stone,
- Abstract要約: Pok'emon Video Game Championships (VGC) は、チーム構成が極端に広い領域である。
重要なインフラストラクチャを提供し、評価プロトコルを標準化し、ヒューマンプレイデータセットを提供するベンチマークであるVGC-Benchを紹介します。
エージェントが単一チーム構成でトレーニングされ評価される制限された環境では、我々のメソッドはプロのVGC競合相手に勝つことができる。
- 参考スコア(独自算出の注目度): 31.012853711707965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing AI agents that can robustly adapt to dramatically different strategic landscapes without retraining is a central challenge for multi-agent learning. Pok\'emon Video Game Championships (VGC) is a domain with an extraordinarily large space of possible team configurations of approximately $10^{139}$ - far larger than those of Dota or Starcraft. The highly discrete, combinatorial nature of team building in Pok\'emon VGC causes optimal strategies to shift dramatically depending on both the team being piloted and the opponent's team, making generalization uniquely challenging. To advance research on this problem, we introduce VGC-Bench: a benchmark that provides critical infrastructure, standardizes evaluation protocols, and supplies human-play datasets and a range of baselines - from large-language-model agents and behavior cloning to reinforcement learning and empirical game-theoretic methods such as self-play, fictitious play, and double oracle. In the restricted setting where an agent is trained and evaluated on a single-team configuration, our methods are able to win against a professional VGC competitor. We extensively evaluated all baseline methods over progressively larger team sets and find that even the best-performing algorithm in the single-team setting struggles at scaling up as team size grows. Thus, policy generalization across diverse team strategies remains an open challenge for the community. Our code is open sourced at https://github.com/cameronangliss/VGC-Bench.
- Abstract(参考訳): 再訓練することなく、劇的に異なる戦略的な状況にしっかりと適応できるAIエージェントを開発することは、マルチエージェント学習における中心的な課題である。
Pok\'emon Video Game Championships (VGC) は、Dota や Starcraft よりもはるかに大きい約10^{139} のチーム構成を持つドメインである。
Pok\'emon VGCにおけるチーム構築の非常に離散的で組合せ的な性質は、パイロットチームと反対チームの両方によって、最適な戦略が劇的にシフトし、一般化が独特な課題となる。
VGC-Benchは,重要なインフラを提供し,評価プロトコルを標準化し,人為的なデータセットとベースラインを提供するベンチマークであり,大規模言語モデルエージェントや行動クローンから,強化学習や自己学習,架空の遊び,ダブルオラクルといった経験的ゲーム理論手法まで,幅広い基盤となる。
エージェントが単一チーム構成でトレーニングされ評価される制限された環境では、我々のメソッドはプロのVGC競合相手に勝つことができる。
より大規模なチームセットに対して,すべてのベースラインメソッドを広範囲に評価し,チームのサイズが大きくなるにつれて,単一チーム設定における最高のパフォーマンスのアルゴリズムでさえスケールアップに苦慮していることが分かった。
このように、様々なチーム戦略にわたる政策の一般化は、コミュニティにとってオープンな課題である。
私たちのコードはhttps://github.com/cameronangliss/VGC-Bench.comで公開されている。
関連論文リスト
- Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games [36.16284323379845]
大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。
マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
論文 参考訳(メタデータ) (2025-05-22T08:52:21Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Value-based CTDE Methods in Symmetric Two-team Markov Game: from
Cooperation to Team Competition [3.828689444527739]
混合協調競争環境における協調的価値ベース手法の評価を行った。
集中型トレーニングと分散型実行パラダイムに基づく3つのトレーニング手法を選択した。
実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
論文 参考訳(メタデータ) (2022-11-21T22:25:55Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。