論文の概要: VideoGameBench: Can Vision-Language Models complete popular video games?
- arxiv url: http://arxiv.org/abs/2505.18134v1
- Date: Fri, 23 May 2025 17:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.257978
- Title: VideoGameBench: Can Vision-Language Models complete popular video games?
- Title(参考訳): VideoGameBench: Vision-Language Modelsが人気ゲームを完成させられるか?
- Authors: Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press,
- Abstract要約: ビデオゲームは、人間が自然に帰納的バイアスを生かして学習し、習得するために直感的に作られている。
1990年代にVLMが直接リアルタイムに対話する人気ゲーム10種からなるベンチマークであるVideoGameBenchを紹介する。
その結果,フロンティア・ビジョン言語モデルは,ゲーム開始以降の進行に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 8.5302862604852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved strong results on coding and math benchmarks that are challenging for humans, yet their ability to perform tasks that come naturally to humans--such as perception, spatial navigation, and memory management--remains understudied. Real video games are crafted to be intuitive for humans to learn and master by leveraging innate inductive biases, making them an ideal testbed for evaluating such capabilities in VLMs. To this end, we introduce VideoGameBench, a benchmark consisting of 10 popular video games from the 1990s that VLMs directly interact with in real-time. VideoGameBench challenges models to complete entire games with access to only raw visual inputs and a high-level description of objectives and controls, a significant departure from existing setups that rely on game-specific scaffolding and auxiliary information. We keep three of the games secret to encourage solutions that generalize to unseen environments. Our experiments show that frontier vision-language models struggle to progress beyond the beginning of each game. We find inference latency to be a major limitation of frontier models in the real-time setting; therefore, we introduce VideoGameBench Lite, a setting where the game pauses while waiting for the LM's next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization of the human skills mentioned above into this benchmark motivates progress in these research directions.
- Abstract(参考訳): 視覚言語モデル(VLM)は、人間にとって困難なコーディングと数学のベンチマークにおいて、強い成果を上げている。
実際のビデオゲームは、人間が自然に帰納的バイアスを生かして学習し、習得するために直感的に設計されており、VLMでそのような能力を評価するのに理想的なテストベッドとなっている。
この目的のために,1990年代にVLMが直接リアルタイムに対話する人気ゲーム10のベンチマークであるVideoGameBenchを紹介する。
VideoGameBenchは、生のビジュアル入力のみへのアクセスと、ゲーム固有の足場と補助情報に依存する既存のセットアップから大きく離れている、目的とコントロールの高レベルな記述によって、ゲーム全体を完成させるモデルに挑戦する。
われわれは3つのゲームを秘密にして、目に見えない環境に一般化するソリューションを奨励している。
実験の結果,フロンティアの視覚言語モデルでは,ゲーム開始以降の進行が困難であることが確認された。
そこで我々は,LMの次のアクションを待つ間,ゲームが停止する設定であるVideoGameBench Liteを導入する。
最高のパフォーマンスモデルであるGemini 2.5 Proは、 VideoGameBenchの0.48%と VideoGameBench Liteの1.6%しか完成していない。
このベンチマークに上述した人間のスキルの形式化が、これらの研究の方向性の進展を動機づけることを願っている。
関連論文リスト
- lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction [58.240114139186275]
近年,無限アニメライフシミュレーションの先駆的なアプローチとして,多ターンテキスト対話を画像生成のための言語命令に変換するために,大規模言語モデル(LLM)が採用されている。
本稿では,MLLM(Multimodal Large Language Models)をベースとしたAnimeGamerを提案する。
本稿では,アニメーション映像を高品質なビデオクリップにデコード可能な,アクション対応のマルチモーダル表現を提案する。
論文 参考訳(メタデータ) (2025-04-01T17:57:18Z) - Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。