論文の概要: SC2Arena and StarEvolve: Benchmark and Self-Improvement Framework for LLMs in Complex Decision-Making Tasks
- arxiv url: http://arxiv.org/abs/2508.10428v1
- Date: Thu, 14 Aug 2025 07:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.223633
- Title: SC2Arena and StarEvolve: Benchmark and Self-Improvement Framework for LLMs in Complex Decision-Making Tasks
- Title(参考訳): SC2ArenaとStarEvolve:複雑な意思決定タスクにおけるLCMのベンチマークと自己改善フレームワーク
- Authors: Pengbo Shen, Yaqing Wang, Ni Mu, Yao Luan, Runpeng Xie, Senhao Yang, Lexiang Wang, Hao Hu, Shuang Xu, Yiqin Yang, Bo Xu,
- Abstract要約: StarCraft IIのような既存のタスクのベンチマークは、ゲームの完全な複雑さを捉えていない。
SC2Arenaは、すべてのプレイ可能なレース、低レベルのアクションスペースを完全にサポートし、テキストベースの観察を最適化し、空間的推論の課題に対処するベンチマークである。
戦略計画と戦術実行を統合する階層的なフレームワークであるStarEvolveを紹介する。
- 参考スコア(独自算出の注目度): 24.84821125790223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) in complex decision-making is essential for advancing AI's ability for strategic planning and real-time adaptation. However, existing benchmarks for tasks like StarCraft II fail to capture the game's full complexity, such as its complete game context, diverse action spaces, and all playable races. To address this gap, we present SC2Arena, a benchmark that fully supports all playable races, low-level action spaces, and optimizes text-based observations to tackle spatial reasoning challenges. Complementing this, we introduce StarEvolve, a hierarchical framework that integrates strategic planning with tactical execution, featuring iterative self-correction and continuous improvement via fine-tuning on high-quality gameplay data. Its key components include a Planner-Executor-Verifier structure to break down gameplay, and a scoring system for selecting high-quality training samples. Comprehensive analysis using SC2Arena provides valuable insights into developing generalist agents that were not possible with previous benchmarks. Experimental results also demonstrate that our proposed StarEvolve achieves superior performance in strategic planning. Our code, environment, and algorithms are publicly available.
- Abstract(参考訳): 複雑な意思決定における大規模言語モデル(LLM)の評価は、戦略的計画とリアルタイム適応のためのAIの能力向上に不可欠である。
しかし、StarCraft IIのような既存のタスクのベンチマークでは、完全なゲームコンテキスト、多様なアクションスペース、全てのプレイ可能なレースなど、ゲームの完全な複雑さを捉えられなかった。
このギャップに対処するため、SC2Arenaは、すべてのプレイ可能なレース、低レベルのアクション空間を完全にサポートし、テキストベースの観察を最適化し、空間的推論の課題に対処するベンチマークを提供する。
本稿では,戦略計画と戦術的実行を統合する階層的なフレームワークであるStarEvolveを紹介する。
ゲームプレイを分解するPlanner-Executor-Verifier構造と、高品質なトレーニングサンプルを選択するスコアシステムがある。
SC2Arenaを用いた包括的な分析は、以前のベンチマークでは不可能なジェネラリストエージェントの開発に関する貴重な洞察を提供する。
また,提案したStarEvolveが戦略的計画において優れた性能を発揮することを示す実験結果を得た。
私たちのコード、環境、アルゴリズムは公開されています。
関連論文リスト
- Society of Mind Meets Real-Time Strategy: A Hierarchical Multi-Agent Framework for Strategic Reasoning [16.35236123729838]
我々は,Strategic Planner (SP) と呼ばれるメタコントローラの下で,特殊模倣学習エージェントを利用する階層型マルチエージェントフレームワークを提案する。
専門家によるデモンストレーションによって、各特殊エージェントは、航空支援や防御演習のような独特の戦略を学び、一貫性のある、構造化された多段階のアクションシーケンスを生成する。
SPはこれらの提案を1つの環境適応プランに編成し、局所的な決定が長期的な戦略と整合することを保証する。
論文 参考訳(メタデータ) (2025-08-08T05:57:12Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach [7.693497788883165]
VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。
本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。
1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
論文 参考訳(メタデータ) (2023-12-19T05:27:16Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。