Fugu-MT 論文翻訳(概要): Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection

論文の概要: Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2306.10239v1
Date: Sat, 17 Jun 2023 02:40:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 23:34:44.607669
Title: Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection
Title（参考訳）: ビデオ異常検出のためのマルチスケール時空間インタラクションネットワーク
Authors: Zhiyuan Ning, Zhangxun Li, Liang Song
Abstract要約: ビデオ異常検出(VAD)は信号処理において不可欠な課題である。 VADのためのマルチスケール時空間相互作用ネットワーク(MSTI-Net)を提案する。アプローチでは、UCSD Ped2が96.8%、CUHK Avenueが87.6%、上海Techデータセットが73.9%のAUCを達成している。
参考スコア（独自算出の注目度）: 3.8222438394022706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) is an essential yet challenge task in signal processing. Since certain anomalies cannot be detected by analyzing temporal or spatial information alone, the interaction between two types of information is considered crucial for VAD. However, current dual-stream architectures either limit interaction between the two types of information to the bottleneck of autoencoder or incorporate background pixels irrelevant to anomalies into the interaction. To this end, we propose a multi-scale spatial-temporal interaction network (MSTI-Net) for VAD. First, to pay particular attention to objects and reconcile the significant semantic differences between the two information, we propose an attention-based spatial-temporal fusion module (ASTM) as a substitute for the conventional direct fusion. Furthermore, we inject multi ASTM-based connections between the appearance and motion pathways of a dual stream network to facilitate spatial-temporal interaction at all possible scales. Finally, the regular information learned from multiple scales is recorded in memory to enhance the differentiation between anomalies and normal events during the testing phase. Solid experimental results on three standard datasets validate the effectiveness of our approach, which achieve AUCs of 96.8% for UCSD Ped2, 87.6% for CUHK Avenue, and 73.9% for the ShanghaiTech dataset.
Abstract（参考訳）: video anomaly detection (vad)は信号処理において欠かせない課題である。時間的・空間的情報のみの解析では特定の異常は検出できないため,vadでは2種類の情報間の相互作用が重要であると考えられる。しかし、現在のデュアルストリームアーキテクチャは2種類の情報間の相互作用をオートエンコーダのボトルネックに制限するか、あるいはその相互作用に異常に無関係な背景画素を組み込むかのいずれかである。そこで本稿では,VADのためのマルチスケール時空間ネットワーク(MSTI-Net)を提案する。まず,オブジェクトに対して特に注意を払い,二つの情報間の意味的な違いを解消するために,従来の直接融合の代替として,注意に基づく空間-時間融合モジュール(astm)を提案する。さらに,両ストリームネットワークの出現経路と動き経路間の複数のASTM接続を注入し,任意の規模で空間的・時間的相互作用を促進する。最後に、複数のスケールから得られた正規情報がメモリに記録され、テストフェーズにおける異常と正常事象の区別が強化される。 ucsd ped2では96.8%、cuhk avenueでは87.6%、上海工科大学データセットでは73.9%のaucsを達成した。

関連論文リスト

Decomposing and Fusing Intra- and Inter-Sensor Spatio-Temporal Signal for Multi-Sensor Wearable Human Activity Recognition [12.359681612030682]
本稿では,モダリティ変数間の関係をよりよくモデル化するDecomposeWHARモデルを提案する。この分解は、改良されたDepth Separable Convolutionを通じて、各センサ内変数の高次元表現を生成する。我々のモデルは、広く使われている3つのWHARデータセットにおいて優れた性能を示し、最先端のモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-01-19T01:52:28Z)
Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文参考訳（メタデータ） (2024-09-17T14:17:52Z)
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文参考訳（メタデータ） (2024-06-05T06:18:03Z)
Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
Cross-Cluster Shifting for Efficient and Effective 3D Object Detection in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文参考訳（メタデータ） (2024-03-10T10:36:32Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文参考訳（メタデータ） (2022-11-01T20:59:38Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文参考訳（メタデータ） (2022-07-27T08:30:19Z)
Unsupervised Deep Anomaly Detection for Multi-Sensor Time-Series Signals [10.866594993485226]
本稿では,Deep Convolutional Autoencoding Memory Network (CAE-M) という,ディープラーニングに基づく新しい異常検出アルゴリズムを提案する。我々はまず,最大平均離散値(MMD)を用いたマルチセンサデータの空間依存性を特徴付けるディープ畳み込みオートエンコーダを構築する。そして,線形(自己回帰モデル)と非線形予測(注意を伴う大規模LSTM)からなるメモリネットワークを構築し,時系列データから時間依存性を捉える。
論文参考訳（メタデータ） (2021-07-27T06:48:20Z)
A Spatial-Temporal Attentive Network with Spatial Continuity for Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文参考訳（メタデータ） (2020-03-13T04:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。