論文の概要: Large Language Models Play StarCraft II: Benchmarks and A Chain of
Summarization Approach
- arxiv url: http://arxiv.org/abs/2312.11865v1
- Date: Tue, 19 Dec 2023 05:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:04:20.082171
- Title: Large Language Models Play StarCraft II: Benchmarks and A Chain of
Summarization Approach
- Title(参考訳): StarCraft IIをプレイする大規模言語モデル - 要約アプローチのベンチマークとチェーン
- Authors: Weiyu Ma, Qirui Mi, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun
Wang
- Abstract要約: VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。
本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。
1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
- 参考スコア(独自算出の注目度): 8.427270628468328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StarCraft II is a challenging benchmark for AI agents due to the necessity of
both precise micro level operations and strategic macro awareness. Previous
works, such as Alphastar and SCC, achieve impressive performance on tackling
StarCraft II , however, still exhibit deficiencies in long term strategic
planning and strategy interpretability. Emerging large language model (LLM)
agents, such as Voyage and MetaGPT, presents the immense potential in solving
intricate tasks. Motivated by this, we aim to validate the capabilities of LLMs
on StarCraft II, a highly complex RTS game.To conveniently take full advantage
of LLMs` reasoning abilities, we first develop textual StratCraft II
environment, called TextStarCraft II, which LLM agent can interact. Secondly,
we propose a Chain of Summarization method, including single frame
summarization for processing raw observations and multi frame summarization for
analyzing game information, providing command recommendations, and generating
strategic decisions. Our experiment consists of two parts: first, an evaluation
by human experts, which includes assessing the LLMs`s mastery of StarCraft II
knowledge and the performance of LLM agents in the game; second, the in game
performance of LLM agents, encompassing aspects like win rate and the impact of
Chain of Summarization.Experiment results demonstrate that: 1. LLMs possess the
relevant knowledge and complex planning abilities needed to address StarCraft
II scenarios; 2. Human experts consider the performance of LLM agents to be
close to that of an average player who has played StarCraft II for eight years;
3. LLM agents are capable of defeating the built in AI at the Harder(Lv5)
difficulty level. We have open sourced the code and released demo videos of LLM
agent playing StarCraft II.
- Abstract(参考訳): StarCraft IIは、正確なマイクロレベルの操作と戦略的マクロ認識の両方を必要とするため、AIエージェントにとって困難なベンチマークである。
しかし、AlphastarやSCCといった以前の研究は、StarCraft IIに対処する上で素晴らしい成果を上げているが、長期的な戦略計画と戦略解釈性には欠点がある。
VoyageやMetaGPTといった新たな大規模言語モデル(LLM)エージェントは、複雑なタスクを解決する大きな可能性を示している。
そこで我々は,高度に複雑なRTSゲームであるStarCraft IIにおけるLLMの能力を検証することを目指しており,LLMの推論能力を最大限活用するために,LLMエージェントと対話可能なテキストStratCraft II環境を開発する。
第2に,生観察処理のための単一フレーム要約,ゲーム情報解析のためのマルチフレーム要約,コマンドレコメンデーションの提供,戦略決定の生成など,一連の要約手法を提案する。
実験は、まず、人間の専門家による評価と、ゲームにおけるLLMエージェントの熟達度の評価と、ゲーム内のLLMエージェントのパフォーマンス、そして、LLMエージェントのゲームパフォーマンスと、勝利率や要約の連鎖の影響といった側面を含む2つの部から成っている。
1. LLMは、スタークラフトIIのシナリオに対応するために必要な知識及び複雑な計画能力を有する。
2. 人間の専門家は、LLMエージェントの演奏は、スタークラフトIIを8年間プレイした平均的な選手の演奏に近いものとみなす。
3. LLMエージェントは、Harder(Lv5)の難易度で構築されたAIを倒すことができる。
コードをオープンソース化し、LLMエージェントがStarCraft IIをプレイするデモビデオを公開しました。
関連論文リスト
- GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via
Game-Theoretic Evaluations [91.30799663654965]
本稿では,ボードゲームやカードゲームなどのゲーム理論タスクを通じて,競争環境における大規模言語モデルの推論能力を評価する。
GTBenchは、広く認識されている10のタスクを包括的ゲーム分類によって構成する言語駆動型環境である。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - SwarmBrain: Embodied agent for real-time strategy game StarCraft II via
large language models [1.235958663217432]
本研究の目的は,大規模言語モデル(LLM)がリアルタイム戦略戦争タスクの実行に与える影響を検討することである。
本稿では,StarCraft II ゲーム環境におけるリアルタイム戦略実装に LLM を活用する具体的エージェントである SwarmBrain を紹介する。
実験結果から,SwarmBrainの経済増進,領土拡大,戦術定式化を行う能力が示された。
論文 参考訳(メタデータ) (2024-01-31T11:14:29Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - SCC: an efficient deep reinforcement learning agent mastering the game
of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。
我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。
SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2020-12-24T08:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。