論文の概要: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
- arxiv url: http://arxiv.org/abs/2604.07429v1
- Date: Wed, 08 Apr 2026 17:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.478017
- Title: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
- Title(参考訳): GameWorld:マルチモーダルゲームエージェントの標準化と検証に向けて
- Authors: Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou,
- Abstract要約: GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
- 参考スコア(独自算出の注目度): 76.60994803070436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.
- Abstract(参考訳): 実世界のインタラクションの具体的一般化に向けて、Multimodal Large Language Model (MLLM)エージェントは依然として、困難なレイテンシ、少ないフィードバック、そして不可逆的なミスに悩まされている。
ビデオゲームは、リッチな視覚観察とクローズドループインタラクションを備えた理想的なテストベッドを提供する。
しかし、これらの機能を体系的に評価することは、現在ヘテロジニアスなアクションインタフェースとヒューリスティックな検証によって妨げられている。
そこで我々は,ブラウザ環境における汎用ゲームエージェントとしてのMLLMの標準化と検証のためのベンチマークであるGameWorldを紹介した。
2つのゲームエージェントインタフェースが研究されている。
一 キーボード及びマウスの制御を直接出力するコンピュータ使用エージェント
(2)決定論的セマンティック・アクション・パーシング(Semantic Action Parsing)を通して意味的行動空間で作用する汎用的マルチモーダル・エージェント。
GameWorldには34の多様なゲームと170のタスクがあり、それぞれが結果に基づいた評価のための状態検証可能なメトリクスと組み合わせている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
フルベンチマークの再実行を繰り返す実験は、ベンチマークの堅牢性を示す一方で、リアルタイムインタラクション、コンテキストメモリの感度、アクションの妥当性に関するさらなる研究は、ゲームエージェントの今後の課題を浮き彫りにしている。
同時に、標準化され、検証可能で再現可能な評価フレームワークを提供することで、GameWorldはマルチモーダルゲームエージェント以上の研究を進めるための堅牢な基盤を構築している。
プロジェクトページはhttps://gameworld-bench.github.io.comにある。
関連論文リスト
- GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents [4.920953895710103]
本稿では,エージェント中心の認識と推論をビデオ理解を通じて評価するフレームワークであるGameplayQAを紹介する。
我々は,自己,他エージェント,世界という三進的システムを中心に構築された状態,行動,イベントの同時キャプションを同期した,1.22ラベル/秒のマルチプレイヤー3Dゲームプレイビデオを高密度に注釈付けする。
これらのアノテーションを用いて,3段階の認知複雑性に分類された2.4Kの診断QAペアを改良し,構造的障害分類を行った。
論文 参考訳(メタデータ) (2026-03-25T14:10:45Z) - Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games [56.81554611870848]
我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。
また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。
実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
論文 参考訳(メタデータ) (2025-09-01T01:33:16Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - A Survey on Large Language Model-Based Game Agents [35.34074811680046]
ゲームエージェントは、人工知能に関連する能力を探索するための貴重なテストベッドを提供する。
近年、LLM(Large Language Models)の出現は、これらのエージェントに一般化可能な推論を与える新たな機会を提供する。
この調査は、統一された参照アーキテクチャを通して、LLMベースのゲームエージェントの最新のレビューを提供する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - Preference-conditioned Pixel-based AI Agent For Game Testing [1.5059676044537105]
環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を軽減する可能性がある。
本稿では,ユーザの好みに応じて設定された環境を探索しながら,主に画素ベースの状態観測に依存するエージェント設計を提案する。
実AAAゲームにおける多くの側面に類似した複雑なオープンワールド環境において、調査対象とテスト実行品質に対して、我々のエージェントは、最先端の画素ベースのゲームテストエージェントよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-08-18T04:19:36Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。