論文の概要: Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2306.10239v1
- Date: Sat, 17 Jun 2023 02:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:34:44.607669
- Title: Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection
- Title(参考訳): ビデオ異常検出のためのマルチスケール時空間インタラクションネットワーク
- Authors: Zhiyuan Ning, Zhangxun Li, Liang Song
- Abstract要約: ビデオ異常検出(VAD)は信号処理において不可欠な課題である。
VADのためのマルチスケール時空間相互作用ネットワーク(MSTI-Net)を提案する。
アプローチでは、UCSD Ped2が96.8%、CUHK Avenueが87.6%、上海Techデータセットが73.9%のAUCを達成している。
- 参考スコア(独自算出の注目度): 3.8222438394022706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is an essential yet challenge task in signal
processing. Since certain anomalies cannot be detected by analyzing temporal or
spatial information alone, the interaction between two types of information is
considered crucial for VAD. However, current dual-stream architectures either
limit interaction between the two types of information to the bottleneck of
autoencoder or incorporate background pixels irrelevant to anomalies into the
interaction. To this end, we propose a multi-scale spatial-temporal interaction
network (MSTI-Net) for VAD. First, to pay particular attention to objects and
reconcile the significant semantic differences between the two information, we
propose an attention-based spatial-temporal fusion module (ASTM) as a
substitute for the conventional direct fusion. Furthermore, we inject multi
ASTM-based connections between the appearance and motion pathways of a dual
stream network to facilitate spatial-temporal interaction at all possible
scales. Finally, the regular information learned from multiple scales is
recorded in memory to enhance the differentiation between anomalies and normal
events during the testing phase. Solid experimental results on three standard
datasets validate the effectiveness of our approach, which achieve AUCs of
96.8% for UCSD Ped2, 87.6% for CUHK Avenue, and 73.9% for the ShanghaiTech
dataset.
- Abstract(参考訳): video anomaly detection (vad)は信号処理において欠かせない課題である。
時間的・空間的情報のみの解析では特定の異常は検出できないため,vadでは2種類の情報間の相互作用が重要であると考えられる。
しかし、現在のデュアルストリームアーキテクチャは2種類の情報間の相互作用をオートエンコーダのボトルネックに制限するか、あるいはその相互作用に異常に無関係な背景画素を組み込むかのいずれかである。
そこで本稿では,VADのためのマルチスケール時空間ネットワーク(MSTI-Net)を提案する。
まず,オブジェクトに対して特に注意を払い,二つの情報間の意味的な違いを解消するために,従来の直接融合の代替として,注意に基づく空間-時間融合モジュール(astm)を提案する。
さらに,両ストリームネットワークの出現経路と動き経路間の複数のASTM接続を注入し,任意の規模で空間的・時間的相互作用を促進する。
最後に、複数のスケールから得られた正規情報がメモリに記録され、テストフェーズにおける異常と正常事象の区別が強化される。
ucsd ped2では96.8%、cuhk avenueでは87.6%、上海工科大学データセットでは73.9%のaucsを達成した。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - A Dynamic Domain Adaptation Deep Learning Network for EEG-based Motor
Imagery Classification [1.7465786776629872]
動的ドメイン適応型ディープラーニングネットワーク(DADL-Net)を提案する。
まず、脳波データを3次元幾何学空間にマッピングし、その時空間的特徴を3次元畳み込みモジュールを通して学習する。
精度は70.42%と73.91%で、OpenBMIとBCIC IV 2aデータセットで達成された。
論文 参考訳(メタデータ) (2023-09-21T01:34:00Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition [65.87203087716263]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、すべての標準評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Unsupervised Deep Anomaly Detection for Multi-Sensor Time-Series Signals [10.866594993485226]
本稿では,Deep Convolutional Autoencoding Memory Network (CAE-M) という,ディープラーニングに基づく新しい異常検出アルゴリズムを提案する。
我々はまず,最大平均離散値(MMD)を用いたマルチセンサデータの空間依存性を特徴付けるディープ畳み込みオートエンコーダを構築する。
そして,線形(自己回帰モデル)と非線形予測(注意を伴う大規模LSTM)からなるメモリネットワークを構築し,時系列データから時間依存性を捉える。
論文 参考訳(メタデータ) (2021-07-27T06:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。