論文の概要: VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
- arxiv url: http://arxiv.org/abs/2505.15952v1
- Date: Wed, 21 May 2025 19:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.876277
- Title: VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
- Title(参考訳): VideoGameQA-Bench: ゲーム品質保証のためのビジョンランゲージモデルの評価
- Authors: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer,
- Abstract要約: ビデオゲームは今やエンターテイメント業界で最高の収入を生み出している。
VLM(Vision-Language Models)の最近の進歩は、ゲーム開発における様々な側面を自動化し、拡張する大きな可能性を秘めている。
ビデオゲームのQAタスクにおけるVLMの性能を正確に評価するには、標準化されたベンチマークが必要である。
VideoGameQA-Benchは、幅広いゲームQAアクティビティをカバーする包括的なベンチマークである。
- 参考スコア(独自算出の注目度): 8.844638212440952
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/
- Abstract(参考訳): ビデオゲームがエンターテイメント業界で最高収入を生み出しているため、ゲーム開発ワークフローの最適化は、このセクターの持続的な成長に欠かせないものとなっている。
近年のVLM(Vision-Language Models)の進歩は、ゲーム開発における様々な側面、特にQA(Quality Assurance)を自動化し、強化する大きな可能性を秘めている。
ゲームQAタスクにおけるVLMの性能を正確に評価し、実世界のシナリオを扱う上での有効性を決定するためには、この領域の特定の要件に対処するには既存のベンチマークが不十分であるため、標準化されたベンチマークの必要性は明らかである。
このギャップを埋めるために,視覚ユニットテスト,視覚回帰テスト,ニードル・イン・ア・ヘイスタックタスク,グリッチ検出,各種ゲームの画像とビデオのバグレポート生成など,幅広いゲームQAアクティビティをカバーする包括的なベンチマークであるVideoGameQA-Benchを紹介した。
コードとデータは、https://asgaardlab.github.io/ videogameqa-bench/で入手できる。
関連論文リスト
- ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。
Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。
このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-21T18:32:43Z) - Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning [69.7882311630412]
マルチモーダル推論データ合成のための新しいゲームコード駆動型アプローチであるCode2Logicを提案する。
提案手法では,Large Language Models (LLM) を用いてゲームコードに適応し,推論プロセスと結果の自動取得を可能にする。
GameQAはコスト効率が高くスケーラブルで、最先端のモデルには挑戦的であり、30のゲームと158のタスクで多種多様である。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content [30.96557290048384]
我々はGAMIVAL(Gaming Video Quality Evaluator)と呼ばれるゲーム固有のNR VQAモデルを開発した。
サポートベクタ回帰(SVR)を回帰器として使用するGAMIVALは,新たなLIVE-Meta Mobile Cloud Gaming(LIVE-Meta MCG)ビデオ品質データベースにおいて,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-03T20:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。