論文の概要: Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection
- arxiv url: http://arxiv.org/abs/2409.11223v1
- Date: Tue, 17 Sep 2024 14:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:25:29.045547
- Title: Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection
- Title(参考訳): マルチモーダルアテンション強化機能融合による週ごとの異常ウイルス検出
- Authors: Yuta Kaneko, Abu Saleh Musa Miah, Najmul Hassan, Hyoun-Sup Lee, Si-Woong Jang, Jungpil Shin,
- Abstract要約: このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
- 参考スコア(独自算出の注目度): 1.9223495770071632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised video anomaly detection (WS-VAD) is a crucial area in computer vision for developing intelligent surveillance systems. This system uses three feature streams: RGB video, optical flow, and audio signals, where each stream extracts complementary spatial and temporal features using an enhanced attention module to improve detection accuracy and robustness. In the first stream, we employed an attention-based, multi-stage feature enhancement approach to improve spatial and temporal features from the RGB video where the first stage consists of a ViT-based CLIP module, with top-k features concatenated in parallel with I3D and Temporal Contextual Aggregation (TCA) based rich spatiotemporal features. The second stage effectively captures temporal dependencies using the Uncertainty-Regulated Dual Memory Units (UR-DMU) model, which learns representations of normal and abnormal data simultaneously, and the third stage is employed to select the most relevant spatiotemporal features. The second stream extracted enhanced attention-based spatiotemporal features from the flow data modality-based feature by taking advantage of the integration of the deep learning and attention module. The audio stream captures auditory cues using an attention module integrated with the VGGish model, aiming to detect anomalies based on sound patterns. These streams enrich the model by incorporating motion and audio signals often indicative of abnormal events undetectable through visual analysis alone. The concatenation of the multimodal fusion leverages the strengths of each modality, resulting in a comprehensive feature set that significantly improves anomaly detection accuracy and robustness across three datasets. The extensive experiment and high performance with the three benchmark datasets proved the effectiveness of the proposed system over the existing state-of-the-art system.
- Abstract(参考訳): 弱教師付きビデオ異常検出(WS-VAD)は、インテリジェントな監視システムの開発において、コンピュータビジョンにおいて重要な領域である。
本システムではRGBビデオ,光流,音声信号の3つの特徴ストリームを用いて,各ストリームが付加されたアテンションモジュールを用いて補完的な空間的特徴と時間的特徴を抽出し,検出精度とロバスト性を向上させる。
第1のストリームでは,第1のステージはVTベースのCLIPモジュールで構成され,第1のステージはI3DおよびTCAをベースとした豊富な時空間特徴と平行に結合したトップk機能を持つRGBビデオから,空間的・時間的特徴を改善するために,注目に基づく多段階特徴強調手法を採用した。
第2段階は、正規データと異常データの表現を同時に学習するUncertainty-Regulated Dual Memory Units (UR-DMU)モデルを用いて、時間的依存関係を効果的にキャプチャし、第3段階は、最も関連する時空間の特徴を選択するために使用される。
第2ストリームは、ディープラーニングとアテンションモジュールの統合を利用して、フローデータモダリティに基づく特徴から、注目に基づく時空間的特徴を抽出した。
音声ストリームは、VGGishモデルと統合されたアテンションモジュールを用いて聴覚手がかりをキャプチャし、音響パターンに基づいて異常を検出する。
これらのストリームは、視覚分析だけでは検出不可能な異常事象を示す動きと音声信号を組み込むことで、モデルを豊かにする。
多モード融合の連結は各モードの強度を活用し、3つのデータセットの異常検出精度とロバスト性を大幅に改善する包括的特徴セットをもたらす。
3つのベンチマークデータセットによる広範な実験とハイパフォーマンスにより、既存の最先端システムよりも提案システムの有効性が証明された。
関連論文リスト
- TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection [19.00902297385955]
本研究では,時間レベルの整合性学習と空間レベルの信頼性学習を統合した時間空間自己補正検出器(TSdetector)を提案する。
公開された3つのポリプビデオデータセットの実験結果は、TSdetectorが最も高いポリプ検出率を達成し、他の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-09-30T06:19:29Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection [3.113134714967787]
ビデオ異常検出(VAD)は信号処理において不可欠な課題である。
VADのためのマルチスケール空間時間相互作用ネットワーク(MSTI-Net)を提案する。
論文 参考訳(メタデータ) (2023-06-17T02:40:29Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。