論文の概要: Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts
- arxiv url: http://arxiv.org/abs/2408.05905v2
- Date: Tue, 13 Aug 2024 13:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 14:16:02.809531
- Title: Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts
- Title(参考訳): 時空間プロンプトによる映像異常検出と位置推定の弱さ
- Authors: Peng Wu, Xuerong Zhou, Guansong Pang, Zhiwei Yang, Qingsen Yan, Peng Wang, Yanning Zhang,
- Abstract要約: 本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 57.01985221057047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current weakly supervised video anomaly detection (WSVAD) task aims to achieve frame-level anomalous event detection with only coarse video-level annotations available. Existing works typically involve extracting global features from full-resolution video frames and training frame-level classifiers to detect anomalies in the temporal dimension. However, most anomalous events tend to occur in localized spatial regions rather than the entire video frames, which implies existing frame-level feature based works may be misled by the dominant background information and lack the interpretation of the detected anomalies. To address this dilemma, this paper introduces a novel method called STPrompt that learns spatio-temporal prompt embeddings for weakly supervised video anomaly detection and localization (WSVADL) based on pre-trained vision-language models (VLMs). Our proposed method employs a two-stream network structure, with one stream focusing on the temporal dimension and the other primarily on the spatial dimension. By leveraging the learned knowledge from pre-trained VLMs and incorporating natural motion priors from raw videos, our model learns prompt embeddings that are aligned with spatio-temporal regions of videos (e.g., patches of individual frames) for identify specific local regions of anomalies, enabling accurate video anomaly detection while mitigating the influence of background information. Without relying on detailed spatio-temporal annotations or auxiliary object detection/tracking, our method achieves state-of-the-art performance on three public benchmarks for the WSVADL task.
- Abstract(参考訳): 現在、弱教師付きビデオ異常検出(WSVAD)タスクは、粗いビデオレベルのアノテーションのみを使用してフレームレベルの異常イベント検出を実現することを目的としている。
既存の作業は通常、フル解像度のビデオフレームからグローバルな特徴を抽出し、時間次元の異常を検出するためにフレームレベルの分類器を訓練する。
しかし、ほとんどの異常事象は、ビデオフレーム全体ではなく、局所的な空間領域で発生しがちであり、既存のフレームレベルの特徴に基づく作業は、支配的な背景情報によって誤解され、検出された異常の解釈が欠如している可能性がある。
本稿では,このジレンマに対処するために,事前学習された視覚言語モデル(VLM)に基づいて,弱教師付きビデオ異常検出・局所化(WSVADL)のための時空間埋め込みを学習するSTPromptという新しい手法を提案する。
提案手法は2ストリームのネットワーク構造を用いており、一方のストリームは時間次元に、もう一方は空間次元に重点を置いている。
トレーニング済みのVLMから学んだ知識を活用し,生動画からの自然な動きを取り入れることで,ビデオの時空間(例えば個々のフレームのパッチ)に合わせた迅速な埋め込みを学習し,背景情報の影響を緩和しながら,正確な映像異常検出を可能にする。
詳細な時空間アノテーションや補助オブジェクト検出/追跡に頼ることなく、WSVADLタスクの3つの公開ベンチマークで最先端のパフォーマンスを実現する。
関連論文リスト
- Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - A Modular and Unified Framework for Detecting and Localizing Video
Anomalies [30.83924581439373]
MOVADと呼ばれるオンラインビデオ異常検出とローカリゼーション問題に対するモジュール化された統一アプローチを提案します。
新たなトランスファーラーニングベースのプラグアンドプレイアーキテクチャ、シーケンシャルな異常検出器、検出しきい値を選択する数学的フレームワーク、ビデオ中のリアルタイムな異常事象検出に適したパフォーマンス指標から構成される。
論文 参考訳(メタデータ) (2021-03-21T04:16:51Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Localizing Anomalies from Weakly-Labeled Videos [45.58643708315132]
Weakly Supervised Anomaly Localization (WSAL)法を提案する。
異常映像の出現差にインスパイアされ, 隣接する時間領域の進化を異常映像の局所化のために評価した。
提案手法は,UCF-CrimeおよびTADデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-20T12:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。