Fugu-MT 論文翻訳(概要): Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection

論文の概要: Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2206.08568v1
Date: Fri, 17 Jun 2022 05:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-20 13:55:59.108260
Title: Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection
Title（参考訳）: 映像異常検出のための視覚トランスフォーマによるマルチコンテキスト予測
Authors: Joo-Yeon Lee, Woo-Jeoung Nam, Seong-Whan Lee
Abstract要約: ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
参考スコア（独自算出の注目度）: 22.098399083491937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Anomaly Detection(VAD) has been traditionally tackled in two main methodologies: the reconstruction-based approach and the prediction-based one. As the reconstruction-based methods learn to generalize the input image, the model merely learns an identity function and strongly causes the problem called generalizing issue. On the other hand, since the prediction-based ones learn to predict a future frame given several previous frames, they are less sensitive to the generalizing issue. However, it is still uncertain if the model can learn the spatio-temporal context of a video. Our intuition is that the understanding of the spatio-temporal context of a video plays a vital role in VAD as it provides precise information on how the appearance of an event in a video clip changes. Hence, to fully exploit the context information for anomaly detection in video circumstances, we designed the transformer model with three different contextual prediction streams: masked, whole and partial. By learning to predict the missing frames of consecutive normal frames, our model can effectively learn various normality patterns in the video, which leads to a high reconstruction error at the abnormal cases that are unsuitable to the learned context. To verify the effectiveness of our approach, we assess our model on the public benchmark datasets: USCD Pedestrian 2, CUHK Avenue and ShanghaiTech and evaluate the performance with the anomaly score metric of reconstruction error. The results demonstrate that our proposed approach achieves a competitive performance compared to the existing video anomaly detection methods.
Abstract（参考訳）: ビデオ異常検出(VAD)は伝統的に2つの主要な手法、すなわち再構成に基づくアプローチと予測に基づく手法で取り組まれてきた。レコンストラクションベースの手法が入力画像を一般化することを学ぶと、モデルは単にアイデンティティ関数を学習し、一般化問題と呼ばれる問題を強く引き起こす。一方, 予測ベースでは, 過去の数フレームから将来のフレームを予測できるため, 一般化問題にはあまり敏感ではない。しかし、モデルがビデオの時空間的文脈を学習できるかどうかはまだ不明である。我々の直感は、ビデオの時空間的文脈を理解することは、ビデオクリップにおけるイベントの出現がどのように変化するかの正確な情報を提供するため、VADにおいて重要な役割を果たす。そこで,ビデオ環境下での異常検出にコンテキスト情報をフル活用するために,3つの異なるコンテキスト予測ストリームを持つトランスモデルを設計した。連続する通常フレームの欠落フレームを予測できるように学習することにより,映像中の様々な正規性パターンを効果的に学習することができ,学習コンテキストに不適合な異常症例において高い再構成誤差を生じさせる。本手法の有効性を検証するために,uscd pedestrian 2, cuhk avenue および shanghaitech の公開ベンチマークデータセット上でのモデルを評価し,再構成誤差の異常スコア指標を用いて性能評価を行った。その結果,提案手法は既存のビデオ異常検出手法と比較して競合性能が高いことがわかった。

関連論文リスト

Transformer Based Self-Context Aware Prediction for Few-Shot Anomaly Detection in Videos [8.773238774969068]
本稿では,自己コンテキストを意識したビデオにおける異常検出のための,一級数ショット学習駆動型トランスフォーマ方式を提案する。ビデオの最初の数個の非非正則フレームの特徴は、後続のフレームの非正則な特徴を予測するための変圧器の訓練に使用される。学習後、いくつかの前のフレームが与えられた後、ビデオ固有変換器は、フレームが異常であるか否かを、そのフレームによって予測される特徴と実際の特徴とを比較して推測する。
論文参考訳（メタデータ） (2025-03-02T00:07:49Z)
Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。 V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文参考訳（メタデータ） (2024-08-26T07:17:05Z)
Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。 VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文参考訳（メタデータ） (2024-06-18T03:19:24Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文参考訳（メタデータ） (2023-08-15T14:04:50Z)
Making Reconstruction-based Method Great Again for Video Anomaly Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文参考訳（メタデータ） (2023-01-28T01:57:57Z)
Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文参考訳（メタデータ） (2021-07-29T03:07:25Z)
Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-03T01:33:26Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。