論文の概要: AVA: Attentive VLM Agent for Mastering StarCraft II
- arxiv url: http://arxiv.org/abs/2503.05383v3
- Date: Fri, 21 Mar 2025 06:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.993316
- Title: AVA: Attentive VLM Agent for Mastering StarCraft II
- Title(参考訳): AVA: StarCraft IIをマスターするための注意深いVLMエージェント
- Authors: Weiyu Ma, Yuqian Fu, Zecheng Zhang, Bernard Ghanem, Guohao Li,
- Abstract要約: Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
- 参考スコア(独自算出の注目度): 56.07921367623274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Attentive VLM Agent (AVA), a multimodal StarCraft II agent that aligns artificial agent perception with the human gameplay experience. Traditional frameworks such as SMAC rely on abstract state representations that diverge significantly from human perception, limiting the ecological validity of agent behavior. Our agent addresses this limitation by incorporating RGB visual inputs and natural language observations that more closely simulate human cognitive processes during gameplay. The AVA architecture consists of three integrated components: (1) a vision-language model enhanced with specialized self-attention mechanisms for strategic unit targeting and battlefield assessment, (2) a retrieval-augmented generation system that leverages domain-specific StarCraft II knowledge to inform tactical decisions, and (3) a dynamic role-based task distribution system that enables coordinated multi-agent behavior. The experimental evaluation in our proposed AVACraft environment, which contains 21 multimodal StarCraft II scenarios, demonstrates that AVA powered by foundation models (specifically Qwen-VL and GPT-4o) can execute complex tactical maneuvers without explicit training, achieving comparable performance to traditional MARL methods that require substantial training iterations. This work establishes a foundation for developing human-aligned StarCraft II agents and advances the broader research agenda of multimodal game AI. Our implementation is available at https://github.com/camel-ai/VLM-Play-StarCraft2.
- Abstract(参考訳): Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
SMACのような伝統的なフレームワークは、人間の知覚と大きく異なる抽象状態表現に依存しており、エージェントの行動の生態学的妥当性を制限している。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
AVAアーキテクチャは,(1)戦略単位のターゲティングと戦場評価のための特殊な自己認識機構を付加した視覚言語モデル,(2)ドメイン固有のStarCraft II知識を活用して戦術的決定を通知する検索拡張生成システム,(3)協調型マルチエージェント動作を可能にする動的ロールベースタスク配信システム,の3つの統合構成で構成されている。
提案したAVACraft環境において,21のマルチモーダルStarCraft IIシナリオを含む実験により,基礎モデル(特にQwen-VLとGPT-4o)をベースとしたAVAが,明示的なトレーニングを伴わずに複雑な戦術的操作を実行できることを示す。
この研究は、人間と協調したStarCraft IIエージェントを開発するための基盤を確立し、マルチモーダルゲームAIの幅広い研究課題を前進させる。
私たちの実装はhttps://github.com/camel-ai/VLM-Play-StarCraft2.comで公開されています。
関連論文リスト
- Static Vs. Agentic Game Master AI for Facilitating Solo Role-Playing Experiences [3.383857646639421]
本稿では,シングルプレイヤーロールプレイングゲームのためのゲームマスターAIを提案する。
このAIは、Dungeons & Dragonsのようなマルチプレイヤーのテーブルトップゲームに関連する、インタラクティブなテキストベースの物語と体験を提供するように設計されている。
論文 参考訳(メタデータ) (2025-02-26T19:42:22Z) - Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach [7.693497788883165]
VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。
本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。
1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
論文 参考訳(メタデータ) (2023-12-19T05:27:16Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。