論文の概要: Cultivating Game Sense for Yourself: Making VLMs Gaming Experts
- arxiv url: http://arxiv.org/abs/2503.21263v1
- Date: Thu, 27 Mar 2025 08:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:21.354992
- Title: Cultivating Game Sense for Yourself: Making VLMs Gaming Experts
- Title(参考訳): 自分のためにゲームセンスを育む:VLMのゲームエキスパートを作る
- Authors: Wenxuan Lu, Jiangyang He, Zhanqiu Zhang, Yiwen Guo, Tianning Zang,
- Abstract要約: ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
- 参考スコア(独自算出の注目度): 23.370716496046217
- License:
- Abstract: Developing agents capable of fluid gameplay in first/third-person games without API access remains a critical challenge in Artificial General Intelligence (AGI). Recent efforts leverage Vision Language Models (VLMs) as direct controllers, frequently pausing the game to analyze screens and plan action through language reasoning. However, this inefficient paradigm fundamentally restricts agents to basic and non-fluent interactions: relying on isolated VLM reasoning for each action makes it impossible to handle tasks requiring high reactivity (e.g., FPS shooting) or dynamic adaptability (e.g., ACT combat). To handle this, we propose a paradigm shift in gameplay agent design: instead of directly controlling gameplay, VLM develops specialized execution modules tailored for tasks like shooting and combat. These modules handle real-time game interactions, elevating VLM to a high-level developer. Building upon this paradigm, we introduce GameSense, a gameplay agent framework where VLM develops task-specific game sense modules by observing task execution and leveraging vision tools and neural network training pipelines. These modules encapsulate action-feedback logic, ranging from direct action rules to neural network-based decisions. Experiments demonstrate that our framework is the first to achieve fluent gameplay in diverse genres, including ACT, FPS, and Flappy Bird, setting a new benchmark for game-playing agents.
- Abstract(参考訳): APIアクセスのないゲームで流動的なゲームプレイが可能なエージェントを開発することは、Artificial General Intelligence(AGI)において重要な課題である。
近年の取り組みでは、視覚言語モデル(VLM)を直接コントローラとして利用し、しばしば画面を分析し、言語推論を通じてアクションを計画する。
しかしながら、この非効率なパラダイムは、エージェントを基本的および非流動的な相互作用に基本的に制限する: それぞれのアクションに対して孤立したVLM推論に依存することにより、高い反応性(例えば、FPSシューティング)や動的適応性(例えば、ACT戦闘)を必要とするタスクの処理が不可能になる。
そこで本研究では,ゲームプレイエージェント設計におけるパラダイムシフトを提案する。ゲームプレイを直接制御するのではなく,シューティングや戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
このパラダイムに基づいて,VLMはタスク実行を観察し,ビジョンツールやニューラルネットワークトレーニングパイプラインを活用することで,タスク固有のゲームセンスモジュールを開発するゲームプレイエージェントフレームワークであるGameSenseを紹介する。
これらのモジュールは、ダイレクトアクションルールからニューラルネットワークベースの決定まで、アクションフィードバックロジックをカプセル化する。
実験の結果,ACT,FPS,Flappy Birdなど多種多様なジャンルのゲームプレイを実現する上で,我々のフレームワークは初めて,ゲームプレイエージェントのベンチマークを設定した。
関連論文リスト
- DVM: Towards Controllable LLM Agents in Social Deduction Games [16.826397707182963]
大規模言語モデル(LLM)は,ソーシャル・デダクションゲーム(SDG)におけるゲームエージェントの能力を向上させる。
SDGのための制御可能なLLMエージェントを開発するための新しいフレームワークであるDVMを提案する。
我々は、最も人気のあるSDGの1つであるWerewolf上で、DVMの実装を実演する。
論文 参考訳(メタデータ) (2025-01-12T03:11:20Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - A Survey on Large Language Model-Based Game Agents [9.892954815419452]
ゲームエージェントの開発は、人工知能(AGI)に進む上で重要な役割を担っている
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Neural MMO v1.3: A Massively Multiagent Game Environment for Training
and Evaluating Neural Networks [48.5733173329785]
本稿では,MMOにインスパイアされたマルチエージェントゲーム環境であるNeural MMOを紹介する。
分散インフラストラクチャとゲームIOという,AI研究のためのマルチエージェントシステムエンジニアリングにおける,より一般的な2つの課題について論じる。
論文 参考訳(メタデータ) (2020-01-31T18:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。