論文の概要: Large Language Models Play StarCraft II: Benchmarks and A Chain of
Summarization Approach
- arxiv url: http://arxiv.org/abs/2312.11865v1
- Date: Tue, 19 Dec 2023 05:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:04:20.082171
- Title: Large Language Models Play StarCraft II: Benchmarks and A Chain of
Summarization Approach
- Title(参考訳): StarCraft IIをプレイする大規模言語モデル - 要約アプローチのベンチマークとチェーン
- Authors: Weiyu Ma, Qirui Mi, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun
Wang
- Abstract要約: VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。
本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。
1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
- 参考スコア(独自算出の注目度): 8.427270628468328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StarCraft II is a challenging benchmark for AI agents due to the necessity of
both precise micro level operations and strategic macro awareness. Previous
works, such as Alphastar and SCC, achieve impressive performance on tackling
StarCraft II , however, still exhibit deficiencies in long term strategic
planning and strategy interpretability. Emerging large language model (LLM)
agents, such as Voyage and MetaGPT, presents the immense potential in solving
intricate tasks. Motivated by this, we aim to validate the capabilities of LLMs
on StarCraft II, a highly complex RTS game.To conveniently take full advantage
of LLMs` reasoning abilities, we first develop textual StratCraft II
environment, called TextStarCraft II, which LLM agent can interact. Secondly,
we propose a Chain of Summarization method, including single frame
summarization for processing raw observations and multi frame summarization for
analyzing game information, providing command recommendations, and generating
strategic decisions. Our experiment consists of two parts: first, an evaluation
by human experts, which includes assessing the LLMs`s mastery of StarCraft II
knowledge and the performance of LLM agents in the game; second, the in game
performance of LLM agents, encompassing aspects like win rate and the impact of
Chain of Summarization.Experiment results demonstrate that: 1. LLMs possess the
relevant knowledge and complex planning abilities needed to address StarCraft
II scenarios; 2. Human experts consider the performance of LLM agents to be
close to that of an average player who has played StarCraft II for eight years;
3. LLM agents are capable of defeating the built in AI at the Harder(Lv5)
difficulty level. We have open sourced the code and released demo videos of LLM
agent playing StarCraft II.
- Abstract(参考訳): StarCraft IIは、正確なマイクロレベルの操作と戦略的マクロ認識の両方を必要とするため、AIエージェントにとって困難なベンチマークである。
しかし、AlphastarやSCCといった以前の研究は、StarCraft IIに対処する上で素晴らしい成果を上げているが、長期的な戦略計画と戦略解釈性には欠点がある。
VoyageやMetaGPTといった新たな大規模言語モデル(LLM)エージェントは、複雑なタスクを解決する大きな可能性を示している。
そこで我々は,高度に複雑なRTSゲームであるStarCraft IIにおけるLLMの能力を検証することを目指しており,LLMの推論能力を最大限活用するために,LLMエージェントと対話可能なテキストStratCraft II環境を開発する。
第2に,生観察処理のための単一フレーム要約,ゲーム情報解析のためのマルチフレーム要約,コマンドレコメンデーションの提供,戦略決定の生成など,一連の要約手法を提案する。
実験は、まず、人間の専門家による評価と、ゲームにおけるLLMエージェントの熟達度の評価と、ゲーム内のLLMエージェントのパフォーマンス、そして、LLMエージェントのゲームパフォーマンスと、勝利率や要約の連鎖の影響といった側面を含む2つの部から成っている。
1. LLMは、スタークラフトIIのシナリオに対応するために必要な知識及び複雑な計画能力を有する。
2. 人間の専門家は、LLMエージェントの演奏は、スタークラフトIIを8年間プレイした平均的な選手の演奏に近いものとみなす。
3. LLMエージェントは、Harder(Lv5)の難易度で構築されたAIを倒すことができる。
コードをオープンソース化し、LLMエージェントがStarCraft IIをプレイするデモビデオを公開しました。
関連論文リスト
- LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SwarmBrain: Embodied agent for real-time strategy game StarCraft II via
large language models [1.235958663217432]
本研究の目的は,大規模言語モデル(LLM)がリアルタイム戦略戦争タスクの実行に与える影響を検討することである。
本稿では,StarCraft II ゲーム環境におけるリアルタイム戦略実装に LLM を活用する具体的エージェントである SwarmBrain を紹介する。
実験結果から,SwarmBrainの経済増進,領土拡大,戦術定式化を行う能力が示された。
論文 参考訳(メタデータ) (2024-01-31T11:14:29Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。