論文の概要: SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models
- arxiv url: http://arxiv.org/abs/2505.12589v1
- Date: Mon, 19 May 2025 00:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.330744
- Title: SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models
- Title(参考訳): SurveillanceVQA-589K:大規模モデルを用いた総合的サーベイランスビデオランゲージ理解のためのベンチマーク
- Authors: Bo Liu, Pengfei Qiao, Minhan Ma, Xuange Zhang, Yinan Tang, Peng Xu, Kun Liu, Tongtong Yuan,
- Abstract要約: SurveillanceVQA-589Kは、監視領域に合わせた最大規模のビデオ質問応答ベンチマークである。
データセットは、認知的に多様な質問タイプにまたがる589,380のQAペアで構成されている。
我々のベンチマークは、安全クリティカルなアプリケーションにおけるビデオ言語理解を促進するための実用的で包括的なリソースを提供する。
- 参考スコア(独自算出の注目度): 8.402075279942256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding surveillance video content remains a critical yet underexplored challenge in vision-language research, particularly due to its real-world complexity, irregular event dynamics, and safety-critical implications. In this work, we introduce SurveillanceVQA-589K, the largest open-ended video question answering benchmark tailored to the surveillance domain. The dataset comprises 589,380 QA pairs spanning 12 cognitively diverse question types, including temporal reasoning, causal inference, spatial understanding, and anomaly interpretation, across both normal and abnormal video scenarios. To construct the benchmark at scale, we design a hybrid annotation pipeline that combines temporally aligned human-written captions with Large Vision-Language Model-assisted QA generation using prompt-based techniques. We also propose a multi-dimensional evaluation protocol to assess contextual, temporal, and causal comprehension. We evaluate eight LVLMs under this framework, revealing significant performance gaps, especially in causal and anomaly-related tasks, underscoring the limitations of current models in real-world surveillance contexts. Our benchmark provides a practical and comprehensive resource for advancing video-language understanding in safety-critical applications such as intelligent monitoring, incident analysis, and autonomous decision-making.
- Abstract(参考訳): 監視ビデオの内容を理解することは、特に現実世界の複雑さ、不規則なイベントダイナミクス、安全に重要な意味を持つため、視覚言語研究において、依然として重要で未解明の課題である。
本稿では,監視領域に合わせた最大規模の映像質問応答ベンチマークであるSurveillanceVQA-589Kを紹介する。
このデータセットは、時間的推論、因果推論、空間的理解、異常解釈を含む12種類の認知学的に多様な質問タイプにまたがる589,380のQAペアからなる。
ベンチマークを大規模に構築するために,時間的に整列した人書き字幕と,プロンプトベースの手法を用いた大規模視覚言語モデル支援QA生成を組み合わせたハイブリッドアノテーションパイプラインを設計する。
また、文脈的、時間的、因果的理解を評価するための多次元評価プロトコルを提案する。
この枠組みの下で8つのLVLMを評価し,特に因果関係や異常関連タスクにおいて,実世界の監視状況における現行モデルの限界を浮き彫りにした。
我々のベンチマークは、インテリジェントな監視、インシデント分析、自律的意思決定など、安全クリティカルなアプリケーションにおけるビデオ言語理解を促進するための実用的で包括的なリソースを提供する。
関連論文リスト
- AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。
本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文 参考訳(メタデータ) (2024-12-24T09:05:37Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges [10.809558232493236]
本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
論文 参考訳(メタデータ) (2023-09-25T07:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。