論文の概要: Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case
- arxiv url: http://arxiv.org/abs/2409.12889v2
- Date: Sun, 22 Sep 2024 09:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:59:09.677831
- Title: Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case
- Title(参考訳): VLMのロールプレイングゲームは可能か? ブラックマイスウォンを研究事例に
- Authors: Peng Chen, Pi Bu, Jun Song, Yuan Gao, Bo Zheng,
- Abstract要約: 本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
- 参考スコア(独自算出の注目度): 20.14197375326218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language model (LLM)-based agents have made significant advances across various fields. One of the most popular research areas involves applying these agents to video games. Traditionally, these methods have relied on game APIs to access in-game environmental and action data. However, this approach is limited by the availability of APIs and does not reflect how humans play games. With the advent of vision language models (VLMs), agents now have enhanced visual understanding capabilities, enabling them to interact with games using only visual inputs. Despite these advances, current approaches still face challenges in action-oriented tasks, particularly in action role-playing games (ARPGs), where reinforcement learning methods are prevalent but suffer from poor generalization and require extensive training. To address these limitations, we select an ARPG, ``Black Myth: Wukong'', as a research platform to explore the capability boundaries of existing VLMs in scenarios requiring visual-only input and complex action output. We define 12 tasks within the game, with 75% focusing on combat, and incorporate several state-of-the-art VLMs into this benchmark. Additionally, we will release a human operation dataset containing recorded gameplay videos and operation logs, including mouse and keyboard actions. Moreover, we propose a novel VARP (Vision Action Role-Playing) agent framework, consisting of an action planning system and a visual trajectory system. Our framework demonstrates the ability to perform basic tasks and succeed in 90% of easy and medium-level combat scenarios. This research aims to provide new insights and directions for applying multimodal agents in complex action game environments. The code and datasets will be made available at https://varp-agent.github.io/.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に基づくエージェントは,様々な分野において大きな進歩を遂げている。
最も人気のある研究分野の1つは、これらのエージェントをビデオゲームに適用することである。
伝統的に、これらの手法はゲーム内の環境および行動データにアクセスするためにゲームAPIに依存してきた。
しかし、このアプローチはAPIの可用性によって制限されており、人間がゲームをする方法を反映していない。
視覚言語モデル(VLM)の出現により、エージェントは視覚的理解能力を強化し、視覚入力のみを使用してゲームと対話できるようになった。
これらの進歩にもかかわらず、現在のアプローチはアクション指向のタスク、特に強化学習法が一般的だが一般化が不十分で広範な訓練を必要とするアクションロールプレイングゲーム(ARPG)において、依然として課題に直面している。
これらの制限に対処するため、視覚のみの入力と複雑なアクション出力を必要とするシナリオにおいて、既存のVLMの機能境界を探索する研究プラットフォームとして、ARPGの ``Black Myth: Wukong'' を選択する。
ゲーム内の12のタスクを定義し、75%が戦闘に焦点を当て、いくつかの最先端のVLMをこのベンチマークに組み込む。
さらに、記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
さらに,行動計画システムと視覚軌道システムからなるVARP(Vision Action Role-Playing)エージェントフレームワークを提案する。
我々のフレームワークは、基本的なタスクを実行し、簡単かつ中程度の戦闘シナリオの90%を成功させる能力を示している。
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
コードとデータセットはhttps://varp-agent.github.io/で公開される。
関連論文リスト
- Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games [2.2648566044372416]
本稿では,マルチモーダル大言語モデル(LLM)をAtariビデオゲームの分野における低レベルコントローラとして応用することを検討する。
従来の強化学習(RL)や模倣学習(IL)とは異なり、これらのLLMは既存のマルチモーダル知識を利用してゲーム環境に直接関与する。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z) - A Survey on Large Language Model-Based Game Agents [9.892954815419452]
ゲームエージェントの開発は、人工知能(AGI)に進む上で重要な役割を担っている
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - A Minimal Approach for Natural Language Action Space in Text-based Games [103.21433712630953]
本稿では,テキストベースのゲーム(TG)におけるアクション空間の探索という課題を再考する。
我々は,許容行動を利用する最小限のアプローチである$epsilon$-admissible Exploringをトレーニングフェーズに提案する。
本稿では,テキストベースのアクタ・クリティカル(TAC)エージェントを提案する。
論文 参考訳(メタデータ) (2023-05-06T16:05:27Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。