論文の概要: GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
- arxiv url: http://arxiv.org/abs/2603.24329v1
- Date: Wed, 25 Mar 2026 14:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.323645
- Title: GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
- Title(参考訳): GameplayQA:3次元仮想エージェントの高精度POV同期マルチビデオ理解のためのベンチマークフレームワーク
- Authors: Yunzhe Wang, Runhui Xu, Kexin Zheng, Tianyi Zhang, Jayavibhav Niranjan Kogundi, Soham Hans, Volkan Ustun,
- Abstract要約: 本稿では,エージェント中心の認識と推論をビデオ理解を通じて評価するフレームワークであるGameplayQAを紹介する。
我々は,自己,他エージェント,世界という三進的システムを中心に構築された状態,行動,イベントの同時キャプションを同期した,1.22ラベル/秒のマルチプレイヤー3Dゲームプレイビデオを高密度に注釈付けする。
これらのアノテーションを用いて,3段階の認知複雑性に分類された2.4Kの診断QAペアを改良し,構造的障害分類を行った。
- 参考スコア(独自算出の注目度): 4.920953895710103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.
- Abstract(参考訳): マルチモーダルLSMは、ロボット工学から仮想世界に至るまで、3D環境における自律エージェントの知覚バックボーンとして、ますます多くデプロイされている。
これらのアプリケーションには、エージェントが素早い状態変化、正しいエンティティに対する属性アクション、そして既存のベンチマークが適切に評価していない機能である、一人称視点からの同時マルチエージェント動作の理由を理解する必要がある。
本稿では,エージェント中心の認識と推論をビデオ理解を通じて評価するフレームワークであるGameplayQAを紹介する。
具体的には,マルチプレイヤーの3Dゲームプレイ映像を1.22ラベル/秒で濃密に注釈付けし,時間同期,同時キャプションによる状態・行動・事象を自己・他エージェント・世界三進系を中心に構成し,マルチエージェント環境の自然な分解を行う。
これらのアノテーションから,3段階の認知複雑性に分類された2.4Kの診断QAペアを改良し,モデルが幻覚する場所のきめ細かい分析を可能にする構造的障害分類を行った。
フロンティアMLLMの評価は、時間的およびクロスビデオ的なグラウンド、エージェント・ロールの属性、ゲームの決定密度の扱いにおいて共通の失敗を伴う、人間のパフォーマンスとの大きなギャップを明らかにしている。
GameplayQAは、エンボディドAI、エージェント認識、そして世界モデリングの交差点における将来の研究を促進することを願っている。
関連論文リスト
- MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents [54.48066948369172]
エンボディモデルが強力になるにつれ、人間は将来、職場や自宅で複数のエンボディAIエージェントと協力するようになる。
既存の課題には、ビデオ形式で個々の感覚入力を効果的に圧縮し、伝達することが含まれる。
われわれはまず,複数のエンボディエージェントから同時に収集された複数のロングホライズン・エゴセントリックなビデオを理解するという,新しい問題を正式に定義する。
論文 参考訳(メタデータ) (2026-03-10T15:48:35Z) - Proact-VL: A Proactive VideoLLM for Real-Time AI Companions [52.23988809605433]
自動評価のために選択された2つのゲームシナリオ,コメンテータとガイドを通じて,AIコンパニオンをインスタンス化する。
Proact-VLは,マルチモーダル言語モデルを人間のような環境認識とインタラクションが可能な,能動的,リアルタイムな対話エージェントに形成するフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T19:02:46Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - A Survey on Large Language Model-Based Game Agents [35.34074811680046]
ゲームエージェントは、人工知能に関連する能力を探索するための貴重なテストベッドを提供する。
近年、LLM(Large Language Models)の出現は、これらのエージェントに一般化可能な推論を与える新たな機会を提供する。
この調査は、統一された参照アーキテクチャを通して、LLMベースのゲームエージェントの最新のレビューを提供する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。