論文の概要: EgoEsportsQA: An Egocentric Video Benchmark for Perception and Reasoning in Esports
- arxiv url: http://arxiv.org/abs/2604.12320v2
- Date: Mon, 20 Apr 2026 10:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.399803
- Title: EgoEsportsQA: An Egocentric Video Benchmark for Perception and Reasoning in Esports
- Title(参考訳): EgoEsportsQA: スポーツにおける知覚と推論のためのエゴセントリックなビデオベンチマーク
- Authors: Jianzhe Ma, Zhonghao Cao, Shangkui Chen, Yichen Xu, Wenxuan Wang, Qin Jin,
- Abstract要約: EgoEsportsQAは、専門家のエスポート知識に対する認識と推論を基盤とする、先駆的なビデオ質問回答(QA)ベンチマークである。
我々は、スケーラブルな6段階のパイプラインを通じて、3つのファーストパーソンシューティングゲーム間でのプロの試合から、1,745の高品質QAペアをキュレートする。
- 参考スコア(独自算出の注目度): 45.11533142825268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While video large language models (Video-LLMs) excel in understanding slow-paced, real-world egocentric videos, their capabilities in high-velocity, information-dense virtual environments remain under-explored. Existing benchmarks focus on daily activities, yet lack a rigorous testbed for evaluating fast, rule-bound reasoning in virtual scenarios. To fill this gap, we introduce EgoEsportsQA, a pioneering video question-answering (QA) benchmark for grounding perception and reasoning in expert esports knowledge. We curate 1,745 high-quality QA pairs from professional matches across 3 first-person shooter games via a scalable six-stage pipeline. These questions are structured into a two-dimensional decoupled taxonomy: 11 sub-tasks in the cognitive capability dimension (covering perception and reasoning levels) and 6 sub-tasks in the esports knowledge dimension. Comprehensive evaluations of state-of-the-art Video-LLMs reveal that current models still fail to achieve satisfactory performance, with the best model only 71.58%. The results expose notable gaps across both axes: models exhibit stronger capabilities in basic visual perception than in deep tactical reasoning, and they grasp overall macro-progression better than fine-grained micro-operations. Extensive ablation experiments demonstrate the intrinsic weaknesses of current Video-LLM architectures. Further analysis suggests that our dataset not only reveals the connections between real-world and virtual egocentric domains, but also offers guidance for optimizing downstream esports applications, thereby fostering the future advancement of Video-LLMs in various egocentric environments.
- Abstract(参考訳): ビデオ大言語モデル(Video-LLMs)は、遅いペースで現実のエゴセントリックなビデオを理解するのに優れていますが、高速度で情報密度の仮想環境におけるそれらの能力は、まだ未調査のままです。
既存のベンチマークは日々のアクティビティに重点を置いているが、仮想シナリオにおける高速でルールバウンドな推論を評価するための厳格なテストベッドは欠如している。
このギャップを埋めるために、専門家のエスポート知識における認識と推論の基盤となる、先駆的なビデオ質問回答(QA)ベンチマークであるEgoEsportsQAを紹介する。
我々は、スケーラブルな6段階のパイプラインを通じて、3つのファーストパーソンシューティングゲーム間でのプロの試合から、1,745の高品質QAペアをキュレートする。
これらの質問は、認知能力の次元における11のサブタスク(知覚と推論のレベルをカバーする)とエスポートの知識の次元における6のサブタスクという2次元の分離された分類に構成されている。
最新のビデオLLMの総合評価では、現在のモデルでは十分な性能が得られず、最高のモデルはわずか71.58%である。
モデルは、深い戦術的推論よりも基礎的な視覚知覚において強い能力を示し、細粒度のマイクロ操作よりも全体的なマクロ・プログレッションを把握している。
大規模なアブレーション実験は、現在のビデオ-LLMアーキテクチャの固有の弱点を実証している。
さらに分析した結果,我々のデータセットは,実世界と仮想エゴセントリックなドメイン間の関係を明らかにするだけでなく,下流のエスポートアプリケーションを最適化するためのガイダンスも提供し,様々なエゴセントリックな環境におけるビデオ-LLMの今後の発展を促進することが示唆された。
関連論文リスト
- Learning Situated Awareness in the Real World [63.75211123289058]
SAW-Benchは、実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークである。
6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。
我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
論文 参考訳(メタデータ) (2026-02-18T18:22:52Z) - SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文 参考訳(メタデータ) (2025-11-09T18:55:20Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning [10.942503187642851]
FineQuestは、認知科学にインスパイアされたデュアルモード推論を活用する最初のトレーニング不要のフレームワークである。
FineQuestには、9つのスポーツにまたがるマルチモーダルスポーツ知識グラフであるSSGraphが組み込まれている。
Gym-QA と Diving-QA という,FinGym と FineDiving のデータセットから得られた2つの新しいスポーツビデオQAベンチマークを紹介した。
論文 参考訳(メタデータ) (2025-09-15T11:27:23Z) - EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering [59.94048858464922]
EgoCrossは、EgocentricQAにおけるMLLMのクロスドメイン一般化を評価するためのベンチマークである。
EgoCrossは、手術、産業、極端なスポーツ、動物の観点からの4つの分野をカバーしている。
798のビデオクリップにまたがる約1000のQAペアで構成され、予測、認識、ローカライゼーション、カウントという4つの重要なQAタスクにまたがる。
論文 参考訳(メタデータ) (2025-08-14T15:11:20Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
自己中心型空間ビデオのクオリティ・オブ・エクスペリエンス(QoE)を評価することは、高品質な視聴体験を確保するために不可欠である。
我々は,600個のエゴセントリックな空間ビデオからなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介した。
また,両眼の空間,運動,意味的特徴を統合し,全体的な知覚品質を予測する多次元両眼機能融合モデルであるESVQAnetを提案する。
論文 参考訳(メタデータ) (2024-12-29T10:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。