論文の概要: Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2312.01764v1
- Date: Mon, 4 Dec 2023 09:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:24:02.581036
- Title: Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection
- Title(参考訳): 弱監視ビデオ異常検出のためのマルチスケール時間特徴に基づく動的消去ネットワーク
- Authors: Chen Zhang, Guorong Li, Yuankai Qi, Hanhua Ye, Laiyun Qing, Ming-Hsuan
Yang, Qingming Huang
- Abstract要約: 弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
- 参考スコア(独自算出の注目度): 103.92970668001277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of weakly supervised video anomaly detection is to learn a detection
model using only video-level labeled data. However, prior studies typically
divide videos into fixed-length segments without considering the complexity or
duration of anomalies. Moreover, these studies usually just detect the most
abnormal segments, potentially overlooking the completeness of anomalies. To
address these limitations, we propose a Dynamic Erasing Network (DE-Net) for
weakly supervised video anomaly detection, which learns multi-scale temporal
features. Specifically, to handle duration variations of abnormal events, we
first propose a multi-scale temporal modeling module, capable of extracting
features from segments of varying lengths and capturing both local and global
visual information across different temporal scales. Then, we design a dynamic
erasing strategy, which dynamically assesses the completeness of the detected
anomalies and erases prominent abnormal segments in order to encourage the
model to discover gentle abnormal segments in a video. The proposed method
obtains favorable performance compared to several state-of-the-art approaches
on three datasets: XD-Violence, TAD, and UCF-Crime. Code will be made available
at https://github.com/ArielZc/DE-Net.
- Abstract(参考訳): 弱教師付きビデオ異常検出の目標は,ビデオレベルのラベル付きデータのみを用いて検出モデルを学習することである。
しかしながら、従来の研究では、ビデオは異常の複雑さや期間を考慮せずに、固定長のセグメントに分割される。
さらに、これらの研究は通常最も異常な部分を検出し、異常の完全性を見落としている。
これらの制約に対処するために,マルチスケールの時間的特徴を学習する弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
特に,異常事象の持続時間変化に対処するために,まず,異なる長さのセグメントから特徴を抽出し,異なる時間スケールにわたる局所的および大域的な視覚情報を取得するマルチスケールの時空間モデリングモジュールを提案する。
そこで我々は,検出された異常の完全性を動的に評価し,顕著な異常セグメントを消去する動的消去戦略を設計し,ビデオ中の緩やかな異常セグメントの発見を促す。
提案手法は,XD-Violence,TAD,UCF-Crimeの3つのデータセットに対する最先端手法と比較して,良好な性能が得られる。
コードはhttps://github.com/ArielZc/DE-Netで公開される。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Graph-Jigsaw Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection [7.127829790714167]
スケルトンに基づくビデオ異常検出(SVAD)はコンピュータビジョンにおいて重要な課題である。
本稿では,Skeleton-based Video Anomaly Detection (GiCiSAD) のためのグラフ-Jigsaw条件付き拡散モデル(Graph-Jigsaw Conditioned Diffusion Model)を提案する。
広く使われている4つの骨格ベースのビデオデータセットの実験では、GiCiSADはトレーニングパラメータが大幅に少ない既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T18:42:32Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Holistic Representation Learning for Multitask Trajectory Anomaly
Detection [65.72942351514956]
そこで本研究では,異なる時間帯における骨格軌跡の包括的表現による予測運動の学習を提案する。
我々は、時間的閉鎖された軌道を符号化し、ブロックされたセグメントの潜在表現を共同学習し、異なる時間的セグメントにわたる期待運動に基づいて軌道を再構築する。
論文 参考訳(メタデータ) (2023-11-03T11:32:53Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Weakly Supervised Video Anomaly Detection via Center-guided
Discriminative Learning [25.787860059872106]
監視ビデオの異常検出は、異常なビデオコンテンツと持続時間の多様性のために難しい作業です。
本稿では,トレーニング段階でビデオレベルラベルのみを必要とする異常回帰ネット(ar-net)と呼ばれる異常検出フレームワークを提案する。
本手法は,上海テクデータセットにおける映像異常検出に新たな最先端結果を与える。
論文 参考訳(メタデータ) (2021-04-15T06:41:23Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。