論文の概要: Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2107.13720v1
- Date: Thu, 29 Jul 2021 03:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:29:28.313307
- Title: Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection
- Title(参考訳): 畳み込み変換器を用いたビデオ異常検出用二重識別器生成器
- Authors: Xinyang Feng, Dongjin Song, Yuncong Chen, Zhengzhang Chen, Jingchao
Ni, Haifeng Chen
- Abstract要約: 本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 27.433162897608543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting abnormal activities in real-world surveillance videos is an
important yet challenging task as the prior knowledge about video anomalies is
usually limited or unavailable. Despite that many approaches have been
developed to resolve this problem, few of them can capture the normal
spatio-temporal patterns effectively and efficiently. Moreover, existing works
seldom explicitly consider the local consistency at frame level and global
coherence of temporal dynamics in video sequences. To this end, we propose
Convolutional Transformer based Dual Discriminator Generative Adversarial
Networks (CT-D2GAN) to perform unsupervised video anomaly detection.
Specifically, we first present a convolutional transformer to perform future
frame prediction. It contains three key components, i.e., a convolutional
encoder to capture the spatial information of the input video clips, a temporal
self-attention module to encode the temporal dynamics, and a convolutional
decoder to integrate spatio-temporal features and predict the future frame.
Next, a dual discriminator based adversarial training procedure, which jointly
considers an image discriminator that can maintain the local consistency at
frame-level and a video discriminator that can enforce the global coherence of
temporal dynamics, is employed to enhance the future frame prediction. Finally,
the prediction error is used to identify abnormal video frames. Thoroughly
empirical studies on three public video anomaly detection datasets, i.e., UCSD
Ped2, CUHK Avenue, and Shanghai Tech Campus, demonstrate the effectiveness of
the proposed adversarial spatio-temporal modeling framework.
- Abstract(参考訳): 実世界の監視ビデオにおける異常な活動の検出は、ビデオ異常に関する事前の知識が制限されるか、あるいは利用できないため、重要かつ困難な作業である。
この問題を解決するために多くのアプローチが開発されているが、通常の時空間パターンを効果的かつ効率的に捉えられるものはほとんどない。
さらに、既存の作品では、フレームレベルでの局所的一貫性と、映像列における時間的ダイナミクスのグローバルコヒーレンスを明示的に考慮することがほとんどない。
そこで本稿では,CT-D2GAN(Convolutional Transformer based Dual Discriminator Generative Adversarial Networks)を提案する。
具体的には,まず,将来のフレーム予測を行う畳み込みトランスを提案する。
これには、入力されたビデオクリップの空間情報をキャプチャする畳み込みエンコーダ、時間的ダイナミクスをエンコードする時間的自己保持モジュール、時空間的特徴を統合し将来のフレームを予測する畳み込みデコーダの3つのキーコンポーネントが含まれる。
次に、フレームレベルで局所的な一貫性を維持できる画像識別器と、時間的ダイナミクスのグローバルコヒーレンスを強制できる映像識別器とを併用して、将来のフレーム予測を強化する。
最後に、予測誤差を用いて異常な映像フレームを識別する。
UCSD Ped2, CUHK Avenue, Shanghai Tech Campus という3つのパブリックビデオ異常検出データセットに関する実験的研究により, 提案した対側時空間モデリングフレームワークの有効性が実証された。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Video Anomaly Detection using GAN [0.0]
この論文は、このユースケースに対する解決策を提供することを目的としており、監視システム記録の異常な活動に目を通すために人的資源が不要になるようにする。
我々は,新しいGANに基づく異常検出モデルを開発した。
論文 参考訳(メタデータ) (2023-11-23T16:41:30Z) - Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Video Anomaly Detection via Prediction Network with Enhanced
Spatio-Temporal Memory Exchange [21.334952965297667]
ビデオ異常検出は、ほとんどの異常は少なく、決定論的ではないため、難しい作業である。
大規模なメモリ交換を拡張した畳み込みLSTM自動エンコーダ予測フレームワークを設計する。
3つのベンチマークで評価した結果,我々のフレームワークは既存の予測に基づく異常検出手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-26T16:10:56Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。