論文の概要: Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2412.20455v1
- Date: Sun, 29 Dec 2024 12:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:19.726673
- Title: Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection
- Title(参考訳): 弱教師付きビデオ異常検出のためのクロスモーダルフュージョンとアテンション機構
- Authors: Ayush Ghadiya, Purbayan Kar, Vishal Chudasama, Pankaj Wasnik,
- Abstract要約: 弱教師付きビデオ異常検出(WS-VAD)が現代研究の方向性として浮上している。
暴力やヌードなどの異常を正確に検出するマルチモーダルなWS-VADフレームワークを提案する。
提案モデルでは,暴力とヌード検出のベンチマークデータセットを用いて,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 2.749898166276854
- License:
- Abstract: Recently, weakly supervised video anomaly detection (WS-VAD) has emerged as a contemporary research direction to identify anomaly events like violence and nudity in videos using only video-level labels. However, this task has substantial challenges, including addressing imbalanced modality information and consistently distinguishing between normal and abnormal features. In this paper, we address these challenges and propose a multi-modal WS-VAD framework to accurately detect anomalies such as violence and nudity. Within the proposed framework, we introduce a new fusion mechanism known as the Cross-modal Fusion Adapter (CFA), which dynamically selects and enhances highly relevant audio-visual features in relation to the visual modality. Additionally, we introduce a Hyperbolic Lorentzian Graph Attention (HLGAtt) to effectively capture the hierarchical relationships between normal and abnormal representations, thereby enhancing feature separation accuracy. Through extensive experiments, we demonstrate that the proposed model achieves state-of-the-art results on benchmark datasets of violence and nudity detection.
- Abstract(参考訳): 近年、ビデオレベルのラベルのみを用いて、暴力やヌードなどの異常事象を識別するための、現代研究の方向性として、弱教師付きビデオ異常検出(WS-VAD)が出現している。
しかし、この課題には、不均衡なモダリティ情報に対処することや、正常な特徴と異常な特徴を一貫して区別することなど、重大な課題がある。
本稿では,これらの課題に対処し,暴力やヌードなどの異常を正確に検出するマルチモーダルなWS-VADフレームワークを提案する。
提案手法では,CFA (Cross-modal Fusion Adapter) と呼ばれる新たな融合機構を導入する。
さらに,正規表現と異常表現の階層的関係を効果的に捉え,特徴分離の精度を高めるために,双曲性ローレンツグラフ注意(HLGAtt)を導入する。
大規模な実験を通じて,提案モデルが暴力とヌード検出のベンチマークデータセット上で,最先端の結果が得られることを示した。
関連論文リスト
- MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
本稿では,新しい階層グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
提案手法は,大規模マルチモーダルモデル上での重勾配計算を回避し,従来の手法の限界を回避する。
我々のモデルは,従来のセグメンテーションベースやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Graph-Jigsaw Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection [7.127829790714167]
スケルトンに基づくビデオ異常検出(SVAD)はコンピュータビジョンにおいて重要な課題である。
本稿では,Skeleton-based Video Anomaly Detection (GiCiSAD) のためのグラフ-Jigsaw条件付き拡散モデル(Graph-Jigsaw Conditioned Diffusion Model)を提案する。
広く使われている4つの骨格ベースのビデオデータセットの実験では、GiCiSADはトレーニングパラメータが大幅に少ない既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T18:42:32Z) - Generating and Reweighting Dense Contrastive Patterns for Unsupervised
Anomaly Detection [59.34318192698142]
我々は、先行のない異常発生パラダイムを導入し、GRADと呼ばれる革新的な教師なし異常検出フレームワークを開発した。
PatchDiffは、様々な種類の異常パターンを効果的に公開する。
MVTec ADとMVTec LOCOデータセットの両方の実験も、前述の観測をサポートする。
論文 参考訳(メタデータ) (2023-12-26T07:08:06Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - BatchNorm-based Weakly Supervised Video Anomaly Detection [117.11382325721016]
弱教師付きビデオ異常検出では、異常事象の時間的特徴は、しばしば異常な特性を示す。
本稿では,BatchNormをWVADに組み込んだBN-WVADを提案する。
提案したBN-WVADモデルでは、UCF-CrimeのAUCは87.24%、XD-Violenceは84.93%に達する。
論文 参考訳(メタデータ) (2023-11-26T17:47:57Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - MGFN: Magnitude-Contrastive Glance-and-Focus Network for
Weakly-Supervised Video Anomaly Detection [39.923871347007875]
そこで本稿では,空間時間情報を統合して高精度な異常検出を行う新しい視点・焦点ネットワークを提案する。
異常の程度を表すために特徴量を使用する既存のアプローチは、通常、シーンのバリエーションの影響を無視する。
本稿では,異常検出のための特徴量の識別性を高めるため,特徴増幅機構とマグニチュードコントラスト損失を提案する。
論文 参考訳(メタデータ) (2022-11-28T07:10:36Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - A Video Anomaly Detection Framework based on Appearance-Motion Semantics
Representation Consistency [18.06814233420315]
本稿では,正常データの外観と動作意味表現の整合性を利用して異常検出を行うフレームワークを提案する。
通常のサンプルの外観および動作情報表現を符号化する2ストリームエンコーダを設計する。
異常サンプルの外観と運動特性の低い一貫性は、より大きな再構成誤差で予測されたフレームを生成するために使用できる。
論文 参考訳(メタデータ) (2022-04-08T15:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。