論文の概要: Spatio-Temporal-based Context Fusion for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2210.09572v1
- Date: Tue, 18 Oct 2022 04:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:52:21.797150
- Title: Spatio-Temporal-based Context Fusion for Video Anomaly Detection
- Title(参考訳): ビデオ異常検出のための時空間型コンテキストフュージョン
- Authors: Chao Hu, Weibin Qiu, Weijie Wu and Liqiang Zhu
- Abstract要約: ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.7710335706046505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection aims to discover abnormal events in videos, and the
principal objects are target objects such as people and vehicles. Each target
in the video data has rich spatio-temporal context information. Most existing
methods only focus on the temporal context, ignoring the role of the spatial
context in anomaly detection. The spatial context information represents the
relationship between the detection target and surrounding targets. Anomaly
detection makes a lot of sense. To this end, a video anomaly detection
algorithm based on target spatio-temporal context fusion is proposed. Firstly,
the target in the video frame is extracted through the target detection network
to reduce background interference. Then the optical flow map of two adjacent
frames is calculated. Motion features are used multiple targets in the video
frame to construct spatial context simultaneously, re-encoding the target
appearance and motion features, and finally reconstructing the above features
through the spatio-temporal dual-stream network, and using the reconstruction
error to represent the abnormal score. The algorithm achieves frame-level AUCs
of 98.5% and 86.3% on the UCSDped2 and Avenue datasets, respectively. On the
UCSDped2 dataset, the spatio-temporal dual-stream network improves frames by
5.1% and 0.3%, respectively, compared to the temporal and spatial stream
networks. After using spatial context encoding, the frame-level AUC is enhanced
by 1%, which verifies the method's effectiveness.
- Abstract(参考訳): ビデオ異常検出はビデオ内の異常な事象を検出することを目的としており、主な対象は人や車両などの対象物である。
ビデオデータの各ターゲットは、豊富な時空間情報を有する。
既存の手法のほとんどは時間的文脈のみに焦点を当てており、異常検出における空間的文脈の役割を無視している。
空間コンテキスト情報は、検出対象と周辺対象との関係を表す。
異常検出は理にかなっている。
そこで,目的とする時空間的コンテキスト融合に基づく映像異常検出アルゴリズムを提案する。
まず、ビデオフレーム内のターゲットを対象検出ネットワークを介して抽出し、背景干渉を低減する。
そして、2つの隣接するフレームの光フローマップを算出する。
動画フレーム内の複数のターゲットを用いて、空間的コンテキストを同時に構築し、ターゲットの外観と動きの特徴を再エンコードし、最後に、時空間の2ストリームネットワークを介して上記の特徴を再構築し、再構成誤差を用いて異常スコアを表現している。
このアルゴリズムは、UCSDped2 と Avenue のデータセットでそれぞれ 98.5% と 86.3% のフレームレベル AUC を達成する。
UCSDped2データセットでは、時空間ストリームネットワークと比較して、時空間ストリームネットワークはフレームを5.1%と0.3%改善する。
空間文脈符号化を用いてフレームレベルのAUCを1%向上させ,その有効性を検証した。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Explore Spatio-temporal Aggregation for Insubstantial Object Detection:
Benchmark Dataset and Baseline [16.59161777626215]
Instantial Object Detection (IOD) と呼ばれる, オブジェクトのローカライズを目的とした, 希少な調査作業を行う。
我々は、様々な距離、大きさ、可視性、および異なるスペクトル範囲でキャプチャされたシーンをカバーする600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。
さらに、異なるバックボーンを配置し、時間軸に沿った整合性を活用するために、時間的アグリゲーション損失(STAloss)を精巧に設計するIODのための時間的アグリゲーションフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-23T02:39:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。