論文の概要: The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
- arxiv url: http://arxiv.org/abs/2603.15563v1
- Date: Mon, 16 Mar 2026 17:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.690929
- Title: The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
- Title(参考訳): PokeAgent Challenge: 競争力と長期学習
- Authors: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin,
- Abstract要約: PokeAgent Challengeは意思決定研究のための大規模なベンチマークだ。
Pokemonのマルチエージェントバトルシステムと拡張型ロールプレイングゲーム(RPG)環境上に構築されている。
我々のNeurIPS 2025コンペティションは、私たちのリソースの品質と、Pokemonに対する研究コミュニティの関心の両方を検証します。
- 参考スコア(独自算出の注目度): 45.224407977351824
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
- Abstract(参考訳): 本稿では,ポケモンの多エージェント戦闘システムとロールプレイングゲーム(RPG)環境上に構築された意思決定研究の大規模ベンチマークであるPokeAgent Challengeを紹介する。
部分的可観測性、ゲーム理論的推論、長期計画などは、フロンティアAIの未解決の問題として残るが、現実的な条件下では、これら3つを同時に強調するベンチマークはほとんどない。
PokeAgentは、2つの補完的なトラックを通じてこれらの制限を大規模に対象としています。これは、競争力のあるポケモンバトルにおける部分観測可能性の下で戦略的推論と一般化を求めるBattling Trackと、ポケモンRPGにおける長期計画とシーケンシャル意思決定を必要とするSpeedrunning Trackです。
私たちのBattling Trackは、高レベルの競争力を持つヒューリスティック、RL、LLMベースのベースラインとともに、20M以上の戦闘軌跡のデータセットを提供します。
我々のSpeedrunning TrackはRPGのスピードランニングのための最初の標準化された評価フレームワークを提供し、オープンソースのマルチエージェントオーケストレーションシステムで、ハーネスベースのLLMアプローチの再現可能な比較を行う。
私たちのNeurIPS 2025コンペティションは、私たちのリソースの品質と、Pokemonに対する研究コミュニティの関心の両方を検証するものです。
参加者の投稿とベースラインは、ジェネラリスト(LLM)、スペシャリスト(RL)、そしてエリートな人間のパフォーマンスの間にかなりのギャップがあることを明らかにする。
BenchPress 評価行列の解析から,Pokemon のバトリングは標準的な LLM ベンチマークとほぼ直交しており,既存のスイートでは捕捉されていない能力の測定や,RL と LLM の研究を前進させる未解決ベンチマークとしての Pokemon の位置づけが示されている。
我々は、Battlingのライブリーダボードと、https://pokeagentchallenge.com.comでSpeedrunningの自己完結型評価を備えた、生きたベンチマークに移行する。
関連論文リスト
- Large Language Models as Pokémon Battle Agents: Strategic Play and Content Generation [4.782714372521615]
ポケモンの戦いは、タイプマッチ、統計的なトレードオフ、リスクアセスメントに関する推論を要求する。
本研究は,Large Language Models (LLM) が有能な戦闘エージェントとして機能するかどうかを検討する。
我々は,LLMが事前にプログラムされた論理ではなく,戦闘状態に基づいて行動を選択するターンベースのポケモンバトルシステムを開発した。
論文 参考訳(メタデータ) (2025-12-19T07:46:29Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - PokéAI: A Goal-Generating, Battle-Optimizing Multi-agent System for Pokemon Red [4.558478169296784]
Pok'eAIは,Pok'emon Redを通じて自律的に再生・進行するように設計された,テキストベースでマルチエージェントな大規模言語モデル(LLM)フレームワークである。
本システムでは,3つの専門エージェント(Planning, Execution, Critique-each)と,独自のメモリバンク,役割,スキルセットで構成されている。
論文 参考訳(メタデータ) (2025-06-30T10:09:13Z) - Pokemon Red via Reinforcement Learning [3.548348926427221]
古典的なゲームボーイJRPGであるPok'emon Redは、エージェントのテストベッドとして重要な課題を提示している。
本稿では,Cerrulean Cityの完成までのゲームの初期セグメントを完了させるベースラインエージェントを実証する,単純化された環境と深層強化学習の方法論を紹介する。
我々の実験には、報酬形成の脆弱性を明らかにする様々な改善が含まれており、エージェントは特定の報酬信号を利用する。
論文 参考訳(メタデータ) (2025-02-27T09:42:23Z) - FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning [25.857375787748715]
我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。
競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。
シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
論文 参考訳(メタデータ) (2024-06-04T08:04:23Z) - SmartPlay: A Benchmark for LLMs as Intelligent Agents [45.76707302899935]
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダムさの理解が含まれる。
論文 参考訳(メタデータ) (2023-10-02T18:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。