論文の概要: Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests
- arxiv url: http://arxiv.org/abs/2108.02356v1
- Date: Thu, 5 Aug 2021 04:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:56:30.954828
- Title: Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests
- Title(参考訳): 視覚的クローゼテストの完全学習によるビデオ異常事象検出
- Authors: Siqi Wang, Guang Yu, Zhiping Cai, Xinwang Liu, En Zhu, Jianping Yin,
Qing Liao
- Abstract要約: ビデオ異常事象(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習を必要とする、重要な半教師付きタスクである。
本稿では,視覚的クローゼテスト(VCT)の完了を学習することで,視覚的クローゼ(VCC)という新しいアプローチを提案する。
我々はVCCが最先端のVAD性能を達成することを示す。
- 参考スコア(独自算出の注目度): 50.1446994599891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video abnormal event detection (VAD) is a vital semi-supervised task that
requires learning with only roughly labeled normal videos, as anomalies are
often practically unavailable. Although deep neural networks (DNNs) enable
great progress in VAD, existing solutions typically suffer from two issues: (1)
The precise and comprehensive localization of video events is ignored. (2) The
video semantics and temporal context are under-explored. To address those
issues, we are motivated by the prevalent cloze test in education and propose a
novel approach named visual cloze completion (VCC), which performs VAD by
learning to complete "visual cloze tests" (VCTs). Specifically, VCC first
localizes each video event and encloses it into a spatio-temporal cube (STC).
To achieve both precise and comprehensive localization, appearance and motion
are used as mutually complementary cues to mark the object region associated
with each video event. For each marked region, a normalized patch sequence is
extracted from temporally adjacent frames and stacked into the STC. By
comparing each patch and the patch sequence of a STC to a visual "word" and
"sentence" respectively, we can deliberately erase a certain "word" (patch) to
yield a VCT. DNNs are then trained to infer the erased patch by video
semantics, so as to complete the VCT. To fully exploit the temporal context,
each patch in STC is alternatively erased to create multiple VCTs, and the
erased patch's optical flow is also inferred to integrate richer motion clues.
Meanwhile, a new DNN architecture is designed as a model-level solution to
utilize video semantics and temporal context. Extensive experiments demonstrate
that VCC achieves state-of-the-art VAD performance. Our codes and results are
open at \url{https://github.com/yuguangnudt/VEC_VAD/tree/VCC}
- Abstract(参考訳): ビデオ異常事象検出(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習する必要がある重要な半教師付きタスクである。
ディープニューラルネットワーク(dnn)はvadの大幅な進歩を実現するが,既存のソリューションでは,(1)ビデオイベントの正確かつ包括的なローカライズが無視される,という2つの問題が発生する。
2)ビデオ意味論と時間的文脈は未検討である。
これらの問題に対処するために,我々は教育における一般的なクローズテストにモチベーションを与え,視覚クローズテスト(vcts)の完成を学習することでvadを行う新しいアプローチであるvisual cloze completion (vcc)を提案する。
具体的には、VCCはまず各ビデオイベントをローカライズし、それを時空間立方体(STC)に囲む。
精密かつ包括的なローカライゼーションを実現するため、各映像イベントに関連する対象領域を示す相互補完的手がかりとして外観と動きを用いる。
各マーク領域に対して、時間的に隣接したフレームから正規化されたパッチシーケンスを抽出し、STCに積み重ねる。
それぞれのパッチとSTCのパッチシーケンスを視覚的な「ワード」と「文」と比較することにより、ある「ワード」(パッチ)を意図的に消去してVCTを生成することができる。
DNNは、VCTを完成させるために、ビデオセマンティクスによって消去されたパッチを推測するように訓練される。
時間的コンテキストを完全に活用するために、STCの各パッチは、代わりに複数のVCTを生成するために消去され、削除されたパッチの光学フローも推論され、よりリッチな動き手がかりが統合される。
一方、新しいdnnアーキテクチャは、ビデオ意味論と時間的文脈を利用するモデルレベルのソリューションとして設計されている。
大規模な実験はVCCが最先端のVAD性能を達成することを示す。
我々のコードと結果は \url{https://github.com/yuguangnudt/VEC_VAD/tree/VCC} で公開されている。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection [14.721615285883423]
弱教師付き異常検出(WS-VAD)はビデオレベルのアノテーションだけでVADモデルを学習することを目的とした課題である。
提案手法は,異なる期間の異常や微妙な異常に対処できる。
論文 参考訳(メタデータ) (2023-03-31T13:28:06Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Cloze Test Helps: Effective Video Anomaly Detection via Learning to
Complete Video Events [41.500063839748094]
異常検出(VAD)は、ディープニューラルネットワーク(DNN)を介して実りある進歩を遂げた
言語研究で頻繁に使用されるクローゼテストに触発されて,ビデオイベントコンプリート(VEC)という新しいVADソリューションを提案する。
VECは、一般的に使用されているVADベンチマークにおいて、顕著なマージン(典型的には1.5%-5% AUD)によって、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2020-08-27T08:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。