論文の概要: World Models for Policy Refinement in StarCraft II
- arxiv url: http://arxiv.org/abs/2602.14857v1
- Date: Mon, 16 Feb 2026 15:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.491967
- Title: World Models for Policy Refinement in StarCraft II
- Title(参考訳): スタークラフトIIにおける政策リファインメントの世界モデル
- Authors: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu,
- Abstract要約: StarWMはSC2の最初の世界モデルであり、部分観測可能性の下で将来の観測を予測している。
オフラインの結果は、StarWMがゼロショットベースラインよりも大幅に向上したことを示している。
SC2の組み込みAIに対するオンライン評価は、一貫した改善を示している。
- 参考スコア(独自算出の注目度): 40.540444654026736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近強力な推論と一般化能力を示し、複雑な環境における意思決定ポリシーとしての利用を動機付けている。
StarCraft II (SC2)は、その巨大な状態反応空間と部分観測性を持ち、挑戦的なテストベッドである。
しかし、既存のLCMベースのSC2エージェントは、主にポリシー自体の改善に重点を置いており、学習可能な行動条件遷移モデルを決定ループに組み込むことを見落としている。
このギャップを埋めるために、部分観測可能性の下で将来の観測を予測するSC2の世界初の世界モデルであるStarWMを提案する。
SC2のハイブリッド力学の学習を容易にするために,観測結果を5つの意味モジュールに分解する構造化テキスト表現を導入し,SC2動的予測のための最初の命令チューニングデータセットであるSC2-Dynamics-50kを構築した。
さらに、予測された構造化観測のための多次元オフライン評価フレームワークを開発する。
オフラインの結果、StarWMはゼロショットベースラインよりも大幅に向上し、リソース予測精度が60%近く向上し、自己側マクロ選択一貫性が向上した。
最後に,StarWMをジェネレーション-シミュレーション--Refine決定ループに統合し,フォレスト駆動型政策改善のための世界モデル拡張決定システムであるStarWM-Agentを提案する。
SC2の組み込みAIに対するオンライン評価では、マクロ管理の安定性と戦術的リスクアセスメントの改善に加えて、Hard(LV5)、Hard(LV6)、VeryHard(LV7)に対して、勝利率30%、15%、30%という、一貫した改善が示されている。
関連論文リスト
- Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。
状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。
SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T18:03:39Z) - What-If Analysis of Large Language Models: Explore the Game World Using Proactive Thinking [50.72154186522052]
大規模言語モデル(LLM)は情報処理をリアクティブに行う能力に優れるが、仮説的未来を体系的に探索する能力に欠ける。
提案するWiA-LLMは,LLMにプロアクティブな思考能力を持たせる新しいパラダイムである。
複雑なマルチプレイヤーゲーム環境であるHonor of KingsにおけるWiA-LLMを検証する。
論文 参考訳(メタデータ) (2025-09-05T04:05:27Z) - Dynamic Synthetic Controls vs. Panel-Aware Double Machine Learning for Geo-Level Marketing Impact Estimation [12.815892583089443]
合成制御法(SCM)は、しばしば高出力であるが、体系的に過小評価効果の大きさを示す。
ダブル機械学習(Double Machine Learning, DML)は、SCMに対してベンチマークされることはめったにない。
我々は、典型的な大規模ジオロールアウトを模倣した、オープンで完全に文書化されたシミュレータを構築します。
論文 参考訳(メタデータ) (2025-08-28T00:33:06Z) - SC2Arena and StarEvolve: Benchmark and Self-Improvement Framework for LLMs in Complex Decision-Making Tasks [24.84821125790223]
StarCraft IIのような既存のタスクのベンチマークは、ゲームの完全な複雑さを捉えていない。
SC2Arenaは、すべてのプレイ可能なレース、低レベルのアクションスペースを完全にサポートし、テキストベースの観察を最適化し、空間的推論の課題に対処するベンチマークである。
戦略計画と戦術実行を統合する階層的なフレームワークであるStarEvolveを紹介する。
論文 参考訳(メタデータ) (2025-08-14T07:58:01Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。