論文の概要: Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity
- arxiv url: http://arxiv.org/abs/2412.06171v1
- Date: Mon, 09 Dec 2024 03:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:50.825778
- Title: Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity
- Title(参考訳): Holmes-VAU: あらゆる粒度での長時間のビデオ異常理解を目指して
- Authors: Huaxin Zhang, Xiaohao Xu, Xiang Wang, Jialong Zuo, Xiaonan Huang, Changxin Gao, Shanjun Zhang, Li Yu, Nong Sang,
- Abstract要約: HIVAU-70kは、あらゆる粒度の階層的ビデオ異常理解のためのベンチマークである。
高品質なアノテーションを効率よくスケールする半自動アノテーションエンジンを開発した。
長ビデオにおける効率的な異常検出のために,Anomaly- Focus Temporal Samplerを提案する。
- 参考スコア(独自算出の注目度): 35.14762107193339
- License:
- Abstract: How can we enable models to comprehend video anomalies occurring over varying temporal scales and contexts? Traditional Video Anomaly Understanding (VAU) methods focus on frame-level anomaly prediction, often missing the interpretability of complex and diverse real-world anomalies. Recent multimodal approaches leverage visual and textual data but lack hierarchical annotations that capture both short-term and long-term anomalies. To address this challenge, we introduce HIVAU-70k, a large-scale benchmark for hierarchical video anomaly understanding across any granularity. We develop a semi-automated annotation engine that efficiently scales high-quality annotations by combining manual video segmentation with recursive free-text annotation using large language models (LLMs). This results in over 70,000 multi-granular annotations organized at clip-level, event-level, and video-level segments. For efficient anomaly detection in long videos, we propose the Anomaly-focused Temporal Sampler (ATS). ATS integrates an anomaly scorer with a density-aware sampler to adaptively select frames based on anomaly scores, ensuring that the multimodal LLM concentrates on anomaly-rich regions, which significantly enhances both efficiency and accuracy. Extensive experiments demonstrate that our hierarchical instruction data markedly improves anomaly comprehension. The integrated ATS and visual-language model outperform traditional methods in processing long videos. Our benchmark and model are publicly available at https://github.com/pipixin321/HolmesVAU.
- Abstract(参考訳): 時間スケールや状況の異なるビデオ異常をモデルで理解するには,どうすればよいのか?
従来のビデオ異常理解法(VAU)はフレームレベルの異常予測に重点を置いており、複雑で多様な現実世界の異常の解釈性を欠いていることが多い。
最近のマルチモーダルアプローチは、視覚的およびテキスト的データを活用するが、短期と長期の両方の異常をキャプチャする階層的アノテーションは欠如している。
この課題に対処するために、あらゆる粒度の階層的ビデオ異常理解のための大規模なベンチマークであるHIVAU-70kを導入する。
我々は,手動ビデオセグメンテーションと大規模言語モデル(LLM)を用いた再帰的自由テキストアノテーションを組み合わせることで,高品質なアノテーションを効率よくスケールする半自動アノテーションエンジンを開発した。
これにより、クリップレベル、イベントレベル、ビデオレベルのセグメントで70,000以上のマルチグラニュラアノテーションが編成される。
長ビデオにおける効率的な異常検出のために,Anomaly- Focus Temporal Sampler (ATS)を提案する。
ATSは、異常スコアと密度認識サンプリング器を統合し、異常スコアに基づいてフレームを適応的に選択し、マルチモーダルLSMが異常リッチな領域に集中することを保証し、効率と精度の両方を大幅に向上させる。
大規模な実験により,我々の階層的指導データが異常理解を著しく改善することが示された。
ATSとビジュアル言語の統合モデルは、長いビデオの処理において従来の方法よりも優れている。
私たちのベンチマークとモデルはhttps://github.com/pipixin321/HolmesVAU.comで公開されています。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Weakly-supervised Video Anomaly Detection with Contrastive Learning of
Long and Short-range Temporal Features [26.474395581531194]
MTN-KMIL(Top-K Contrastive Multiple Instance Learning)を用いたマルチスケールテンポラルネットワークを提案する。
提案手法は,3つのベンチマークデータセットに対して,最先端の手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-01-25T12:04:00Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。