論文の概要: PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments
- arxiv url: http://arxiv.org/abs/2509.06235v1
- Date: Sun, 07 Sep 2025 22:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.917154
- Title: PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments
- Title(参考訳): PillagerBench: 競争力のあるMinecraftチーム環境でLLMベースのエージェントをベンチマークする
- Authors: Olivier Schipper, Yudi Zhang, Yali Du, Mykola Pechenizkiy, Meng Fang,
- Abstract要約: PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
- 参考スコア(独自算出の注目度): 48.892997022500765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents have shown promise in various cooperative and strategic reasoning tasks, but their effectiveness in competitive multi-agent environments remains underexplored. To address this gap, we introduce PillagerBench, a novel framework for evaluating multi-agent systems in real-time competitive team-vs-team scenarios in Minecraft. It provides an extensible API, multi-round testing, and rule-based built-in opponents for fair, reproducible comparisons. We also propose TactiCrafter, an LLM-based multi-agent system that facilitates teamwork through human-readable tactics, learns causal dependencies, and adapts to opponent strategies. Our evaluation demonstrates that TactiCrafter outperforms baseline approaches and showcases adaptive learning through self-play. Additionally, we analyze its learning process and strategic evolution over multiple game episodes. To encourage further research, we have open-sourced PillagerBench, fostering advancements in multi-agent AI for competitive environments.
- Abstract(参考訳): LLMをベースとしたエージェントは、様々な協力的および戦略的推論タスクにおいて有望であるが、競争力のあるマルチエージェント環境におけるそれらの効果はいまだ探索されていない。
このギャップに対処するために、Minecraftでリアルタイムの競争力のあるチーム-vs-チームシナリオでマルチエージェントシステムを評価するための新しいフレームワークであるPillagerBenchを紹介します。
公正で再現可能な比較のために、拡張可能なAPI、マルチラウンドテスト、ルールベースの組み込み対戦を提供する。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
さらに,複数のゲームエピソードにおける学習過程と戦略的進化を分析した。
さらなる研究を促進するため、私たちはPillagerBenchをオープンソースとして公開し、競争環境のためのマルチエージェントAIの進歩を促進しました。
関連論文リスト
- Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.67637003848376]
我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。
以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:45:24Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning [25.857375787748715]
我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。
競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。
シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
論文 参考訳(メタデータ) (2024-06-04T08:04:23Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。