論文の概要: A Multi-Agent Pokemon Tournament for Evaluating Strategic Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01623v1
- Date: Sun, 03 Aug 2025 07:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.973728
- Title: A Multi-Agent Pokemon Tournament for Evaluating Strategic Reasoning of Large Language Models
- Title(参考訳): 大規模言語モデルの戦略的推論評価のための多言語ポケモントーナメント
- Authors: Tadisetty Sai Yashwanth, Dhatri C,
- Abstract要約: 本研究は,大言語モデル(LLM)を知的エージェントとして活用し,ポケモン戦における戦略的意思決定をシミュレートする競技トーナメントシステム LLM Pokemon League を提案する。
このプラットフォームは、型ベースのターンベースの戦闘環境において、異なるLLMが示す推論、適応性、戦術的な深さを分析し、比較するように設計されている。
このプロジェクトは、制約のあるルールベースのゲーム環境において、比較AIの振る舞い、戦闘心理学、メタストラテジー開発に関する豊富な調査を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research presents LLM Pokemon League, a competitive tournament system that leverages Large Language Models (LLMs) as intelligent agents to simulate strategic decision-making in Pok\'emon battles. The platform is designed to analyze and compare the reasoning, adaptability, and tactical depth exhibited by different LLMs in a type-based, turn-based combat environment. By structuring the competition as a single-elimination tournament involving diverse AI trainers, the system captures detailed decision logs, including team-building rationale, action selection strategies, and switching decisions. The project enables rich exploration into comparative AI behavior, battle psychology, and meta-strategy development in constrained, rule-based game environments. Through this system, we investigate how modern LLMs understand, adapt, and optimize decisions under uncertainty, making Pok\'emon League a novel benchmark for AI research in strategic reasoning and competitive learning.
- Abstract(参考訳): 本研究は,大言語モデル(LLM)を知的エージェントとして活用し,ポクモンの戦いにおける戦略的意思決定をシミュレートする競技トーナメントシステムであるLLMポケモンリーグを提示する。
このプラットフォームは、型ベースのターンベースの戦闘環境において、異なるLLMが示す推論、適応性、戦術的な深さを分析し、比較するように設計されている。
多様なAIトレーナーを含む単一排除トーナメントとして競技を構成することにより、チームはチーム構築の合理性、行動選択戦略、意思決定の切り換えなど、詳細な意思決定ログをキャプチャする。
このプロジェクトは、制約のあるルールベースのゲーム環境において、比較AIの振る舞い、戦闘心理学、メタストラテジー開発に関する豊富な調査を可能にする。
このシステムを通じて,現代LLMが不確実性の下での意思決定をどのように理解し,適応し,最適化するかを考察し,Pok\'emon Leagueを戦略的推論と競争学習におけるAI研究の新しいベンチマークとする。
関連論文リスト
- Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Can LLMs Play Ô Ăn Quan Game? A Study of Multi-Step Planning and Decision Making [3.827471128756051]
我々は,ベトナムのボードゲーム「O uAn Quan」のレンズを通して,大規模言語モデル(LLM)を計画し,意思決定する能力について検討する。
具体的には,攻撃的から防御的まで多岐にわたるエージェントペルソナを開発し,O uAn Quan ゲームを様々な戦略で LLM 性能を評価するテストベッドとして利用する。
論文 参考訳(メタデータ) (2025-07-04T16:50:40Z) - Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search [32.657454056329875]
大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。
既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。
本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:09:19Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。