論文の概要: Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2306.10239v2
- Date: Thu, 6 Jul 2023 04:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:12:45.605196
- Title: Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection
- Title(参考訳): ビデオ異常検出のためのマルチスケール時空間インタラクションネットワーク
- Authors: Zhiyuan Ning, Zhangxun Li, Zhengliang Guo, Zile Wang, Liang Song
- Abstract要約: ビデオ異常検出(VAD)は信号処理において不可欠な課題である。
VADのためのマルチスケール空間時間相互作用ネットワーク(MSTI-Net)を提案する。
- 参考スコア(独自算出の注目度): 3.113134714967787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) is an essential yet challenging task in signal
processing. Since certain anomalies cannot be detected by isolated analysis of
either temporal or spatial information, the interaction between these two types
of data is considered crucial for VAD. However, current dual-stream
architectures either confine this integral interaction to the bottleneck of the
autoencoder or introduce anomaly-irrelevant background pixels into the
interactive process, hindering the accuracy of VAD. To address these
deficiencies, we propose a Multi-scale Spatial-Temporal Interaction Network
(MSTI-Net) for VAD. First, to prioritize the detection of moving objects in the
scene and harmonize the substantial semantic discrepancies between the two
types of data, we propose an Attention-based Spatial-Temporal Fusion Module
(ASTFM) as a substitute for the conventional direct fusion. Furthermore, we
inject multi-ASTFM-based connections that bridge the appearance and motion
streams of the dual-stream network, thus fostering multi-scale spatial-temporal
interaction. Finally, to bolster the delineation between normal and abnormal
activities, our system records the regular information in a memory module.
Experimental results on three benchmark datasets validate the effectiveness of
our approach, which achieves AUCs of 96.8%, 87.6%, and 73.9% on the UCSD Ped2,
CUHK Avenue, and ShanghaiTech datasets, respectively.
- Abstract(参考訳): video anomaly detection (vad)は信号処理において必須だが困難なタスクである。
時間的または空間的情報の分離分析では特定の異常は検出できないため、これらの2種類のデータ間の相互作用はvadにとって重要であると考えられている。
しかし、現在のデュアルストリームアーキテクチャでは、この積分相互作用をオートエンコーダのボトルネックに限定するか、異常に非関連な背景画素をインタラクティブなプロセスに導入することで、VADの精度を損なう。
これらの欠陥に対処するために,VADのためのマルチスケール空間時間相互作用ネットワーク(MSTI-Net)を提案する。
まず,移動物体の検出を優先し,2種類のデータ間の意味的相違を調和させるため,従来の直接核融合の代替として,アテンションに基づく時空間融合モジュール(ASTFM)を提案する。
さらに、両ストリームネットワークの出現と動きをブリッジするマルチASTFMベースの接続を注入し、マルチスケールの時空間相互作用を促進する。
最後に,正常な動作と異常な動作の関連性を高めるため,メモリモジュール内の正規情報を記録する。
3つのベンチマークデータセットにおける実験結果から,ucsd ped2,cuhk avenue,上海テックデータセットでそれぞれ96.8%,87.6%,73.9%のaucsを達成した。
関連論文リスト
- Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Unsupervised Deep Anomaly Detection for Multi-Sensor Time-Series Signals [10.866594993485226]
本稿では,Deep Convolutional Autoencoding Memory Network (CAE-M) という,ディープラーニングに基づく新しい異常検出アルゴリズムを提案する。
我々はまず,最大平均離散値(MMD)を用いたマルチセンサデータの空間依存性を特徴付けるディープ畳み込みオートエンコーダを構築する。
そして,線形(自己回帰モデル)と非線形予測(注意を伴う大規模LSTM)からなるメモリネットワークを構築し,時系列データから時間依存性を捉える。
論文 参考訳(メタデータ) (2021-07-27T06:48:20Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。