論文の概要: TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
- arxiv url: http://arxiv.org/abs/2601.05899v1
- Date: Fri, 09 Jan 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.027981
- Title: TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
- Title(参考訳): TowerMind: タワー防衛ゲーム学習環境とエージェントとしてのLLMのベンチマーク
- Authors: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison,
- Abstract要約: 本稿では,RTSゲームにおけるタワー防衛サブジャンルを基盤とした,新しい環境であるタワーミンドを紹介する。
我々は、広く使われている大規模言語モデルを評価するために、5つのベンチマークレベルを設計する。
その結果、LLMと人間の専門家の能力と幻覚の両面において、明らかなパフォーマンスギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 5.173133826653683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
- Abstract(参考訳): 近年のLLM(Large Language Models)のブレークスルーは、エージェントにとって有望なパラダイムとして、さまざまなシナリオやタスクに適応するための中核的な汎用能力として長期的な計画と意思決定が出現している。
リアルタイム戦略(RTS)ゲームは、マクロレベルの戦略計画とマイクロレベルの戦術的適応とアクション実行の両方を必要とするため、これらの2つの能力を評価する理想的なテストベッドとして機能する。
既存のRTSゲームベースの環境は、比較的高い計算要求に悩まされるか、テキスト観察のサポートが欠如している。
そこで我々は,RTSゲームにおけるタワーディフェンス(TD)サブジェネレーションを基盤とした,新しい環境であるタワーミンドを紹介した。
TowerMindは、低計算要求と画素ベース、テキスト、構造化されたゲーム状態表現を含むマルチモーダルな観察空間を備えながら、LSMを評価するRTSゲームの重要な評価強度を保っている。
さらに、T TowerMindはモデル幻覚の評価をサポートし、高いカスタマイズ性を提供する。
我々は,異なるマルチモーダル入力環境下で広く使用されているLLMを評価するために,5つのベンチマークレベルを設計する。
その結果,LLMと人的専門家の間には,能力と幻覚の両面において明らかな性能差が認められた。
この実験は、不十分な計画検証、意思決定における多極性の欠如、非効率な行動利用など、LCMの行動における重要な制限をさらに強調した。
また,古典的強化学習アルゴリズムであるApe-X DQNとPPOを評価した。
TowerMindは軽量でマルチモーダルな設計を提供することで、既存のRTSゲームベースの環境景観を補完し、AIエージェントフィールドのための新しいベンチマークを導入する。
ソースコードはGitHubで公開されている(https://github.com/tb6147877/TowerMind)。
関連論文リスト
- LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts [19.97430860742638]
本稿では,大規模言語モデルの意思決定戦略と社会行動を測定するゲーム理論に基づく評価プラットフォームについて述べる。
本システムでは,トップボードランキングとスコアリング機構を用いて,15のLLMを横断的に評価する。
この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
論文 参考訳(メタデータ) (2025-09-20T10:21:17Z) - PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games [2.2648566044372416]
本稿では,アタリゲームにおける低レベルポリシーとして,マルチモーダル LLM の創発的能力をテストするための新しいベンチマークを提案する。
本研究では,従来のRLエージェント,ヒトプレイヤー,ランダムエージェントに対するマルチモーダルLLMの性能評価を行った。
以上の結果から,これらのマルチモーダル LLM はゼロショットの低レベルポリシーをまだ実現できていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。