論文の概要: Open-Vocabulary Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2311.07042v3
- Date: Wed, 13 Mar 2024 10:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:19.953425
- Title: Open-Vocabulary Video Anomaly Detection
- Title(参考訳): Open-Vocabulary Video Anomaly Detection
- Authors: Peng Wu, Xuerong Zhou, Guansong Pang, Yujia Sun, Jing Liu, Peng Wang,
Yanning Zhang
- Abstract要約: 監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
- 参考スコア(独自算出の注目度): 57.552523669351636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) with weak supervision has achieved remarkable
performance in utilizing video-level labels to discriminate whether a video
frame is normal or abnormal. However, current approaches are inherently limited
to a closed-set setting and may struggle in open-world applications where there
can be anomaly categories in the test data unseen during training. A few recent
studies attempt to tackle a more realistic setting, open-set VAD, which aims to
detect unseen anomalies given seen anomalies and normal videos. However, such a
setting focuses on predicting frame anomaly scores, having no ability to
recognize the specific categories of anomalies, despite the fact that this
ability is essential for building more informed video surveillance systems.
This paper takes a step further and explores open-vocabulary video anomaly
detection (OVVAD), in which we aim to leverage pre-trained large models to
detect and categorize seen and unseen anomalies. To this end, we propose a
model that decouples OVVAD into two mutually complementary tasks --
class-agnostic detection and class-specific classification -- and jointly
optimizes both tasks. Particularly, we devise a semantic knowledge injection
module to introduce semantic knowledge from large language models for the
detection task, and design a novel anomaly synthesis module to generate pseudo
unseen anomaly videos with the help of large vision generation models for the
classification task. These semantic knowledge and synthesis anomalies
substantially extend our model's capability in detecting and categorizing a
variety of seen and unseen anomalies. Extensive experiments on three
widely-used benchmarks demonstrate our model achieves state-of-the-art
performance on OVVAD task.
- Abstract(参考訳): 監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
しかしながら、現在のアプローチは本質的にクローズドセットの設定に限られており、トレーニング中に見つからないテストデータに異常なカテゴリが存在する場合、オープンワールドアプリケーションで苦労する可能性がある。
いくつかの最近の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオを見れば、目に見えない異常を検出することを目的としている。
しかし、このような設定は、より情報のあるビデオ監視システムを構築するのに欠かせないにもかかわらず、フレーム異常スコアの予測、特定のカテゴリの異常を認識する能力を持たないことに焦点を当てている。
本稿ではさらに一歩進めて,未確認および未確認の異常を検知・分類するために,事前学習された大規模モデルを活用することを目的とした,オープン語彙ビデオ異常検出(OVVAD)について検討する。
そこで本研究では,OVVADを2つの相補的タスク – クラスに依存しない検出とクラス固有の分類 – に分解し,両タスクを協調的に最適化するモデルを提案する。
特に,検出タスクのための大規模言語モデルから意味的知識を導入するための意味的知識注入モジュールを考案し,その分類タスクのための大規模視覚生成モデルの助けを借りて,未知の擬似異常ビデオを生成するための新しい異常合成モジュールを設計する。
これらの意味的知識と合成異常は、様々な目に見えない異常の検出と分類における我々のモデルの能力を大幅に拡張する。
広範に使用されている3つのベンチマーク実験により,OVVADタスクの最先端性能が得られた。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised
Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。
セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。
提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文 参考訳(メタデータ) (2023-10-26T17:59:19Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Approaches Toward Physical and General Video Anomaly Detection [0.0]
ビデオにおける異常検出は、多くの製造、保守、実生活環境における誤動作の自動検出を可能にする。
6つの異なるビデオクラスを含む物理異常軌道(Physal Anomalous Trajectory)データセットを紹介する。
我々は、高度に可変なシーンで異常なアクティビティを発見すべきという、さらに難しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-12-14T18:57:44Z) - UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection [103.06327681038304]
本稿では,複数の仮想シーンで構成された教師付きオープンセット・ベンチマークを提案する。
既存のデータセットとは異なり、トレーニング時に画素レベルでアノテートされた異常事象を導入する。
UBnormalは最先端の異常検出フレームワークの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-11-16T17:28:46Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。