論文の概要: Cloze Test Helps: Effective Video Anomaly Detection via Learning to
Complete Video Events
- arxiv url: http://arxiv.org/abs/2008.11988v1
- Date: Thu, 27 Aug 2020 08:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:34:51.540671
- Title: Cloze Test Helps: Effective Video Anomaly Detection via Learning to
Complete Video Events
- Title(参考訳): Cloze Test: 完全なビデオイベントへの学習による効果的なビデオ異常検出
- Authors: Guang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin,
Marius Kloft
- Abstract要約: 異常検出(VAD)は、ディープニューラルネットワーク(DNN)を介して実りある進歩を遂げた
言語研究で頻繁に使用されるクローゼテストに触発されて,ビデオイベントコンプリート(VEC)という新しいVADソリューションを提案する。
VECは、一般的に使用されているVADベンチマークにおいて、顕著なマージン(典型的には1.5%-5% AUD)によって、最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 41.500063839748094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a vital topic in media content interpretation, video anomaly detection
(VAD) has made fruitful progress via deep neural network (DNN). However,
existing methods usually follow a reconstruction or frame prediction routine.
They suffer from two gaps: (1) They cannot localize video activities in a both
precise and comprehensive manner. (2) They lack sufficient abilities to utilize
high-level semantics and temporal context information. Inspired by
frequently-used cloze test in language study, we propose a brand-new VAD
solution named Video Event Completion (VEC) to bridge gaps above: First, we
propose a novel pipeline to achieve both precise and comprehensive enclosure of
video activities. Appearance and motion are exploited as mutually complimentary
cues to localize regions of interest (RoIs). A normalized spatio-temporal cube
(STC) is built from each RoI as a video event, which lays the foundation of VEC
and serves as a basic processing unit. Second, we encourage DNN to capture
high-level semantics by solving a visual cloze test. To build such a visual
cloze test, a certain patch of STC is erased to yield an incomplete event (IE).
The DNN learns to restore the original video event from the IE by inferring the
missing patch. Third, to incorporate richer motion dynamics, another DNN is
trained to infer erased patches' optical flow. Finally, two ensemble strategies
using different types of IE and modalities are proposed to boost VAD
performance, so as to fully exploit the temporal context and modality
information for VAD. VEC can consistently outperform state-of-the-art methods
by a notable margin (typically 1.5%-5% AUROC) on commonly-used VAD benchmarks.
Our codes and results can be verified at github.com/yuguangnudt/VEC_VAD.
- Abstract(参考訳): メディアコンテンツの解釈において重要なトピックとして、ビデオ異常検出(VAD)はディープニューラルネットワーク(DNN)を介して実りある進歩を遂げた。
しかし、既存の手法は通常、再構成またはフレーム予測ルーチンに従う。
1)ビデオアクティビティを正確かつ包括的な方法でローカライズすることはできない。
2)高レベルの意味と時間的文脈情報を利用するには十分な能力がない。
言語研究において頻繁に使用されるクローズテストに着想を得て,上記のギャップを埋めるための新しいvadソリューションであるvideo event completion(vec)を提案する。
出現と動きは、関心のある地域(RoIs)をローカライズするための相互補完的な手段として活用される。
ビデオイベントとして各RoIから正規化された時空間立方体(STC)が構築され、VECの基礎を成し、基本的な処理ユニットとして機能する。
第2に,dnnに対して,ビジュアルクローゼテストの解決による高レベルセマンティクスの取得を推奨する。
このような視覚的クローゼテストを構築するために、STCの特定のパッチを消去して不完全なイベント(IE)を生成する。
DNNは、行方不明のパッチを推測することで、元のビデオイベントをIEから復元することを学ぶ。
第三に、よりリッチなモーションダイナミクスを組み込むために、別のDNNは、消去されたパッチの光学的流れを推測するように訓練されている。
最後に、異なるタイプのIEとモダリティを用いた2つのアンサンブル戦略を提案し、VADの時間的文脈とモダリティ情報を完全に活用する。
VECは、一般的に使用されているVADベンチマークにおいて、顕著なマージン(典型的には1.5%-5% AUROC)によって、最先端の手法を一貫して上回ることができる。
我々のコードと結果はgithub.com/yuguangnudt/VEC_VADで検証できる。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection [14.721615285883423]
弱教師付き異常検出(WS-VAD)はビデオレベルのアノテーションだけでVADモデルを学習することを目的とした課題である。
提案手法は,異なる期間の異常や微妙な異常に対処できる。
論文 参考訳(メタデータ) (2023-03-31T13:28:06Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests [50.1446994599891]
ビデオ異常事象(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習を必要とする、重要な半教師付きタスクである。
本稿では,視覚的クローゼテスト(VCT)の完了を学習することで,視覚的クローゼ(VCC)という新しいアプローチを提案する。
我々はVCCが最先端のVAD性能を達成することを示す。
論文 参考訳(メタデータ) (2021-08-05T04:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。