論文の概要: PokéChamp: an Expert-level Minimax Language Agent
- arxiv url: http://arxiv.org/abs/2503.04094v1
- Date: Thu, 06 Mar 2025 05:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:57:45.859860
- Title: PokéChamp: an Expert-level Minimax Language Agent
- Title(参考訳): PokéChamp: エキスパートレベルのミニマックス言語エージェント
- Authors: Seth Karten, Andy Luu Nguyen, Chi Jin,
- Abstract要約: 本稿では,大言語モデル(LLM)を利用したミニマックスエージェントであるPok'eChampを紹介した。
Pok'eChampは2プレイヤーの競争ゲームのための一般的なフレームワーク上に構築されており、LLMのジェネラリスト機能を活用してミニマックスツリーサーチを強化している。
この作品は、500万以上のハイエロの試合を含む300万以上のゲームを含む、最も大きなリアルプレイヤーのポケモンバトルデータセットをコンパイルする。
- 参考スコア(独自算出の注目度): 17.007111119414745
- License:
- Abstract: We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)を利用したミニマックスエージェントであるPok\'eChampを紹介した。
Pok\'eChampは2プレイヤーの競争ゲームのための一般的なフレームワーク上に構築されており、LLMのジェネラリスト機能を活用してミニマックスツリーサーチを強化している。
具体的には、(1)プレイヤーアクションサンプリング、(2)対戦者モデリング、(3)値関数推定の3つの重要なモジュールを置き換えることで、エージェントがゲームの歴史と人間の知識を効果的に活用し、検索空間を減らし、部分観測可能性に対処できるようにする。
特に、私たちのフレームワークは追加のLLMトレーニングを必要としません。
我々は人気のあるGen 9 OUフォーマットでPok\'eChampを評価した。
GPT-4oを使用すると、最高のLCMベースのボットに対して76%、最強のルールベースのボットに対して84%の勝利率を獲得し、その優れた性能を示す。
オープンソースの8ビリオンパラメーターのLlama 3.1モデルであっても、Pok\'eChampは従来最高のLCMベースのボットであるGPT-4oを搭載したPok\'ellmonを64%の勝利率で一貫して上回っている。
Pok\'eChampは、Pok\'emon Showdownオンラインのはしごで1300-1500のエロを達成した。
さらに、この作品は、500万以上のハイエロの試合を含む300万以上のゲームを含む、最大のリアルプレイヤーであるPok\'emonバトルデータセットをコンパイルする。
このデータセットに基づいて、特定の戦闘スキルを評価するために、一連の戦闘ベンチマークとパズルを構築します。
さらに、ローカルゲームエンジンのキーアップデートも提供します。
本研究は,一般的なマルチエージェント問題に対処するゲーム理論アルゴリズムとLLM技術を統合するために,Pok\'emonバトルをベンチマークとして活用するさらなる研究を促進することを願っている。
ビデオ、コード、データセットはhttps://sites.google.com/view/pokechamp-llm.comで公開されている。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Game Development as Human-LLM Interaction [55.03293214439741]
本稿では,Human-LLMインタラクションを利用したChat Game Engine(ChatGE)を紹介する。
ChatGEは、Human-LLMインタラクションを通じて、自然言語を使ってカスタムゲームを開発することができる。
ポーカーゲームのためのChatGEをケーススタディとして構築し、インタラクションの品質とコードの正確性という2つの観点から評価する。
論文 参考訳(メタデータ) (2024-08-18T07:06:57Z) - Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard [0.0]
我々は,Tic-Tac-Toe,Connect Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たなベンチマークを導入する。
GitHubで利用可能なオープンソースのゲームシミュレーションコードにより、LSMは、詳細なデータファイルと競合し、生成することができる。
本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet,Google の Gemini 1.5 Pro と Gemini Flash,OpenAI の GPT-4 Turbo と GPT-4o,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。
論文 参考訳(メタデータ) (2024-07-10T16:14:34Z) - PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models [7.653580388741887]
戦術格闘ゲームにおいて,人間の対人性能を実現する最初のLDM型エージェントであるPokeLLMonを紹介する。
オンライン対人戦は、PokeLLMonの人間的な戦闘戦略とジャスト・イン・タイムの意思決定を実証している。
論文 参考訳(メタデータ) (2024-02-02T03:22:12Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文 参考訳(メタデータ) (2022-09-23T12:24:21Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。