論文の概要: Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2206.08568v1
- Date: Fri, 17 Jun 2022 05:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:55:59.108260
- Title: Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection
- Title(参考訳): 映像異常検出のための視覚トランスフォーマによるマルチコンテキスト予測
- Authors: Joo-Yeon Lee, Woo-Jeoung Nam, Seong-Whan Lee
- Abstract要約: ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
- 参考スコア(独自算出の注目度): 22.098399083491937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection(VAD) has been traditionally tackled in two main
methodologies: the reconstruction-based approach and the prediction-based one.
As the reconstruction-based methods learn to generalize the input image, the
model merely learns an identity function and strongly causes the problem called
generalizing issue. On the other hand, since the prediction-based ones learn to
predict a future frame given several previous frames, they are less sensitive
to the generalizing issue. However, it is still uncertain if the model can
learn the spatio-temporal context of a video. Our intuition is that the
understanding of the spatio-temporal context of a video plays a vital role in
VAD as it provides precise information on how the appearance of an event in a
video clip changes. Hence, to fully exploit the context information for anomaly
detection in video circumstances, we designed the transformer model with three
different contextual prediction streams: masked, whole and partial. By learning
to predict the missing frames of consecutive normal frames, our model can
effectively learn various normality patterns in the video, which leads to a
high reconstruction error at the abnormal cases that are unsuitable to the
learned context. To verify the effectiveness of our approach, we assess our
model on the public benchmark datasets: USCD Pedestrian 2, CUHK Avenue and
ShanghaiTech and evaluate the performance with the anomaly score metric of
reconstruction error. The results demonstrate that our proposed approach
achieves a competitive performance compared to the existing video anomaly
detection methods.
- Abstract(参考訳): ビデオ異常検出(VAD)は伝統的に2つの主要な手法、すなわち再構成に基づくアプローチと予測に基づく手法で取り組まれてきた。
レコンストラクションベースの手法が入力画像を一般化することを学ぶと、モデルは単にアイデンティティ関数を学習し、一般化問題と呼ばれる問題を強く引き起こす。
一方, 予測ベースでは, 過去の数フレームから将来のフレームを予測できるため, 一般化問題にはあまり敏感ではない。
しかし、モデルがビデオの時空間的文脈を学習できるかどうかはまだ不明である。
我々の直感は、ビデオの時空間的文脈を理解することは、ビデオクリップにおけるイベントの出現がどのように変化するかの正確な情報を提供するため、VADにおいて重要な役割を果たす。
そこで,ビデオ環境下での異常検出にコンテキスト情報をフル活用するために,3つの異なるコンテキスト予測ストリームを持つトランスモデルを設計した。
連続する通常フレームの欠落フレームを予測できるように学習することにより,映像中の様々な正規性パターンを効果的に学習することができ,学習コンテキストに不適合な異常症例において高い再構成誤差を生じさせる。
本手法の有効性を検証するために,uscd pedestrian 2, cuhk avenue および shanghaitech の公開ベンチマークデータセット上でのモデルを評価し,再構成誤差の異常スコア指標を用いて性能評価を行った。
その結果,提案手法は既存のビデオ異常検出手法と比較して競合性能が高いことがわかった。
関連論文リスト
- Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [49.91075101563298]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。
このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文 参考訳(メタデータ) (2023-08-15T14:04:50Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。