Fugu-MT 論文翻訳(概要): Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach

論文の概要: Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach

arxiv url: http://arxiv.org/abs/2312.11865v1
Date: Tue, 19 Dec 2023 05:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:04:20.082171
Title: Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach
Title（参考訳）: StarCraft IIをプレイする大規模言語モデル - 要約アプローチのベンチマークとチェーン
Authors: Weiyu Ma, Qirui Mi, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun Wang
Abstract要約: VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。 1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
参考スコア（独自算出の注目度）: 8.427270628468328
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: StarCraft II is a challenging benchmark for AI agents due to the necessity of both precise micro level operations and strategic macro awareness. Previous works, such as Alphastar and SCC, achieve impressive performance on tackling StarCraft II , however, still exhibit deficiencies in long term strategic planning and strategy interpretability. Emerging large language model (LLM) agents, such as Voyage and MetaGPT, presents the immense potential in solving intricate tasks. Motivated by this, we aim to validate the capabilities of LLMs on StarCraft II, a highly complex RTS game.To conveniently take full advantage of LLMs` reasoning abilities, we first develop textual StratCraft II environment, called TextStarCraft II, which LLM agent can interact. Secondly, we propose a Chain of Summarization method, including single frame summarization for processing raw observations and multi frame summarization for analyzing game information, providing command recommendations, and generating strategic decisions. Our experiment consists of two parts: first, an evaluation by human experts, which includes assessing the LLMs`s mastery of StarCraft II knowledge and the performance of LLM agents in the game; second, the in game performance of LLM agents, encompassing aspects like win rate and the impact of Chain of Summarization.Experiment results demonstrate that: 1. LLMs possess the relevant knowledge and complex planning abilities needed to address StarCraft II scenarios; 2. Human experts consider the performance of LLM agents to be close to that of an average player who has played StarCraft II for eight years; 3. LLM agents are capable of defeating the built in AI at the Harder(Lv5) difficulty level. We have open sourced the code and released demo videos of LLM agent playing StarCraft II.
Abstract（参考訳）: StarCraft IIは、正確なマイクロレベルの操作と戦略的マクロ認識の両方を必要とするため、AIエージェントにとって困難なベンチマークである。しかし、AlphastarやSCCといった以前の研究は、StarCraft IIに対処する上で素晴らしい成果を上げているが、長期的な戦略計画と戦略解釈性には欠点がある。 VoyageやMetaGPTといった新たな大規模言語モデル(LLM)エージェントは、複雑なタスクを解決する大きな可能性を示している。そこで我々は,高度に複雑なRTSゲームであるStarCraft IIにおけるLLMの能力を検証することを目指しており,LLMの推論能力を最大限活用するために,LLMエージェントと対話可能なテキストStratCraft II環境を開発する。第2に,生観察処理のための単一フレーム要約,ゲーム情報解析のためのマルチフレーム要約,コマンドレコメンデーションの提供,戦略決定の生成など,一連の要約手法を提案する。実験は、まず、人間の専門家による評価と、ゲームにおけるLLMエージェントの熟達度の評価と、ゲーム内のLLMエージェントのパフォーマンス、そして、LLMエージェントのゲームパフォーマンスと、勝利率や要約の連鎖の影響といった側面を含む2つの部から成っている。 1. LLMは、スタークラフトIIのシナリオに対応するために必要な知識及び複雑な計画能力を有する。 2. 人間の専門家は、LLMエージェントの演奏は、スタークラフトIIを8年間プレイした平均的な選手の演奏に近いものとみなす。 3. LLMエージェントは、Harder(Lv5)の難易度で構築されたAIを倒すことができる。コードをオープンソース化し、LLMエージェントがStarCraft IIをプレイするデモビデオを公開しました。

関連論文リスト

PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文参考訳（メタデータ） (2025-09-07T22:51:12Z)
Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文参考訳（メタデータ） (2025-03-07T12:54:25Z)
Hierarchical Expert Prompt for Large-Language-Model: An Approach Defeat Elite AI in TextStarCraft II for the First Time [13.068341157323987]
大規模言語モデル(LLM)のための階層的エキスパート・プロンプトを提案する。本手法は,専門家レベルの戦術知識を用いて,ゲーム状況の理解を改善する。実験の結果,提案手法は複雑な意思決定課題に対処するための実用的な解法であることが示唆された。
論文参考訳（メタデータ） (2025-02-16T13:36:31Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文参考訳（メタデータ） (2024-11-08T06:04:22Z)
Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文参考訳（メタデータ） (2024-08-05T15:36:46Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models [1.235958663217432]
本研究の目的は,大規模言語モデル(LLM)がリアルタイム戦略戦争タスクの実行に与える影響を検討することである。本稿では,StarCraft II ゲーム環境におけるリアルタイム戦略実装に LLM を活用する具体的エージェントである SwarmBrain を紹介する。実験結果から,SwarmBrainの経済増進,領土拡大,戦術定式化を行う能力が示された。
論文参考訳（メタデータ） (2024-01-31T11:14:29Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。