論文の概要: Cultivating Game Sense for Yourself: Making VLMs Gaming Experts
- arxiv url: http://arxiv.org/abs/2503.21263v1
- Date: Thu, 27 Mar 2025 08:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.441664
- Title: Cultivating Game Sense for Yourself: Making VLMs Gaming Experts
- Title(参考訳): 自分のためにゲームセンスを育む:VLMのゲームエキスパートを作る
- Authors: Wenxuan Lu, Jiangyang He, Zhanqiu Zhang, Yiwen Guo, Tianning Zang,
- Abstract要約: ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
- 参考スコア(独自算出の注目度): 23.370716496046217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing agents capable of fluid gameplay in first/third-person games without API access remains a critical challenge in Artificial General Intelligence (AGI). Recent efforts leverage Vision Language Models (VLMs) as direct controllers, frequently pausing the game to analyze screens and plan action through language reasoning. However, this inefficient paradigm fundamentally restricts agents to basic and non-fluent interactions: relying on isolated VLM reasoning for each action makes it impossible to handle tasks requiring high reactivity (e.g., FPS shooting) or dynamic adaptability (e.g., ACT combat). To handle this, we propose a paradigm shift in gameplay agent design: instead of directly controlling gameplay, VLM develops specialized execution modules tailored for tasks like shooting and combat. These modules handle real-time game interactions, elevating VLM to a high-level developer. Building upon this paradigm, we introduce GameSense, a gameplay agent framework where VLM develops task-specific game sense modules by observing task execution and leveraging vision tools and neural network training pipelines. These modules encapsulate action-feedback logic, ranging from direct action rules to neural network-based decisions. Experiments demonstrate that our framework is the first to achieve fluent gameplay in diverse genres, including ACT, FPS, and Flappy Bird, setting a new benchmark for game-playing agents.
- Abstract(参考訳): APIアクセスのないゲームで流動的なゲームプレイが可能なエージェントを開発することは、Artificial General Intelligence(AGI)において重要な課題である。
近年の取り組みでは、視覚言語モデル(VLM)を直接コントローラとして利用し、しばしば画面を分析し、言語推論を通じてアクションを計画する。
しかしながら、この非効率なパラダイムは、エージェントを基本的および非流動的な相互作用に基本的に制限する: それぞれのアクションに対して孤立したVLM推論に依存することにより、高い反応性(例えば、FPSシューティング)や動的適応性(例えば、ACT戦闘)を必要とするタスクの処理が不可能になる。
そこで本研究では,ゲームプレイエージェント設計におけるパラダイムシフトを提案する。ゲームプレイを直接制御するのではなく,シューティングや戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
このパラダイムに基づいて,VLMはタスク実行を観察し,ビジョンツールやニューラルネットワークトレーニングパイプラインを活用することで,タスク固有のゲームセンスモジュールを開発するゲームプレイエージェントフレームワークであるGameSenseを紹介する。
これらのモジュールは、ダイレクトアクションルールからニューラルネットワークベースの決定まで、アクションフィードバックロジックをカプセル化する。
実験の結果,ACT,FPS,Flappy Birdなど多種多様なジャンルのゲームプレイを実現する上で,我々のフレームワークは初めて,ゲームプレイエージェントのベンチマークを設定した。
関連論文リスト
- Agents Play Thousands of 3D Video Games [26.290863972751428]
我々は、何千もの3Dビデオゲームをプレイできる人工知能エージェントを開発するための新しいフレームワーク、Portalを提示する。
意思決定問題を言語モデリングタスクに変換することで,大規模言語モデル(LLM)を利用して行動木を生成する。
当社のフレームワークでは,ルールベースのノードとニューラルネットワークコンポーネントを組み合わせたハイブリッドポリシ構造を導入し,高レベルの戦略的推論と高精度な低レベル制御を実現する。
論文 参考訳(メタデータ) (2025-03-17T16:42:34Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - DVM: Towards Controllable LLM Agents in Social Deduction Games [16.826397707182963]
大規模言語モデル(LLM)は,ソーシャル・デダクションゲーム(SDG)におけるゲームエージェントの能力を向上させる。
SDGのための制御可能なLLMエージェントを開発するための新しいフレームワークであるDVMを提案する。
我々は、最も人気のあるSDGの1つであるWerewolf上で、DVMの実装を実演する。
論文 参考訳(メタデータ) (2025-01-12T03:11:20Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。