論文の概要: Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2206.08568v1
- Date: Fri, 17 Jun 2022 05:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:55:59.108260
- Title: Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection
- Title(参考訳): 映像異常検出のための視覚トランスフォーマによるマルチコンテキスト予測
- Authors: Joo-Yeon Lee, Woo-Jeoung Nam, Seong-Whan Lee
- Abstract要約: ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
- 参考スコア(独自算出の注目度): 22.098399083491937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection(VAD) has been traditionally tackled in two main
methodologies: the reconstruction-based approach and the prediction-based one.
As the reconstruction-based methods learn to generalize the input image, the
model merely learns an identity function and strongly causes the problem called
generalizing issue. On the other hand, since the prediction-based ones learn to
predict a future frame given several previous frames, they are less sensitive
to the generalizing issue. However, it is still uncertain if the model can
learn the spatio-temporal context of a video. Our intuition is that the
understanding of the spatio-temporal context of a video plays a vital role in
VAD as it provides precise information on how the appearance of an event in a
video clip changes. Hence, to fully exploit the context information for anomaly
detection in video circumstances, we designed the transformer model with three
different contextual prediction streams: masked, whole and partial. By learning
to predict the missing frames of consecutive normal frames, our model can
effectively learn various normality patterns in the video, which leads to a
high reconstruction error at the abnormal cases that are unsuitable to the
learned context. To verify the effectiveness of our approach, we assess our
model on the public benchmark datasets: USCD Pedestrian 2, CUHK Avenue and
ShanghaiTech and evaluate the performance with the anomaly score metric of
reconstruction error. The results demonstrate that our proposed approach
achieves a competitive performance compared to the existing video anomaly
detection methods.
- Abstract(参考訳): ビデオ異常検出(VAD)は伝統的に2つの主要な手法、すなわち再構成に基づくアプローチと予測に基づく手法で取り組まれてきた。
レコンストラクションベースの手法が入力画像を一般化することを学ぶと、モデルは単にアイデンティティ関数を学習し、一般化問題と呼ばれる問題を強く引き起こす。
一方, 予測ベースでは, 過去の数フレームから将来のフレームを予測できるため, 一般化問題にはあまり敏感ではない。
しかし、モデルがビデオの時空間的文脈を学習できるかどうかはまだ不明である。
我々の直感は、ビデオの時空間的文脈を理解することは、ビデオクリップにおけるイベントの出現がどのように変化するかの正確な情報を提供するため、VADにおいて重要な役割を果たす。
そこで,ビデオ環境下での異常検出にコンテキスト情報をフル活用するために,3つの異なるコンテキスト予測ストリームを持つトランスモデルを設計した。
連続する通常フレームの欠落フレームを予測できるように学習することにより,映像中の様々な正規性パターンを効果的に学習することができ,学習コンテキストに不適合な異常症例において高い再構成誤差を生じさせる。
本手法の有効性を検証するために,uscd pedestrian 2, cuhk avenue および shanghaitech の公開ベンチマークデータセット上でのモデルを評価し,再構成誤差の異常スコア指標を用いて性能評価を行った。
その結果,提案手法は既存のビデオ異常検出手法と比較して競合性能が高いことがわかった。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。
このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文 参考訳(メタデータ) (2023-08-15T14:04:50Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。