論文の概要: GMFVAD: Using Grained Multi-modal Feature to Improve Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.20268v1
- Date: Thu, 23 Oct 2025 06:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.456539
- Title: GMFVAD: Using Grained Multi-modal Feature to Improve Video Anomaly Detection
- Title(参考訳): GMFVAD:ビデオ異常検出を改善するグラインドマルチモーダル機能
- Authors: Guangyu Dai, Dong Chen, Siliang Tang, Yueting Zhuang,
- Abstract要約: 我々は、ビデオ異常検出のためのグラインドマルチモーダル特徴(GMFVAD)を提案する。
主要なコンテンツを要約したビデオスニペットに基づいて、よりきめ細かいマルチモーダル機能を生成する。
実験により、GMFVADは主に4つのデータセットで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 63.16754542429089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video anomaly detection (VAD) is a challenging task that detects anomalous frames in continuous surveillance videos. Most previous work utilizes the spatio-temporal correlation of visual features to distinguish whether there are abnormalities in video snippets. Recently, some works attempt to introduce multi-modal information, like text feature, to enhance the results of video anomaly detection. However, these works merely incorporate text features into video snippets in a coarse manner, overlooking the significant amount of redundant information that may exist within the video snippets. Therefore, we propose to leverage the diversity among multi-modal information to further refine the extracted features, reducing the redundancy in visual features, and we propose Grained Multi-modal Feature for Video Anomaly Detection (GMFVAD). Specifically, we generate more grained multi-modal feature based on the video snippet, which summarizes the main content, and text features based on the captions of original video will be introduced to further enhance the visual features of highlighted portions. Experiments show that the proposed GMFVAD achieves state-of-the-art performance on four mainly datasets. Ablation experiments also validate that the improvement of GMFVAD is due to the reduction of redundant information.
- Abstract(参考訳): ビデオ異常検出(VAD)は、連続監視ビデオにおける異常フレームを検出する難しいタスクである。
ビデオスニペットに異常があるかどうかを識別するために,視覚特徴の時空間的相関を利用した。
近年,ビデオ異常検出の結果を高めるために,テキスト機能などのマルチモーダル情報の導入を試みている研究もある。
しかし、これらは単にビデオスニペットにテキスト機能を組み込むだけで、ビデオスニペット内に存在している大量の冗長な情報を見渡すことができる。
そこで我々は,マルチモーダル情報間の多様性を活用して,抽出した特徴をさらに洗練し,視覚的特徴の冗長性を低減し,ビデオ異常検出のためのグラインドマルチモーダル特徴(GMFVAD)を提案する。
具体的には,ビデオスニペットをベースとしたよりきめ細かいマルチモーダル機能を生成し,オリジナルビデオのキャプションに基づくテキスト機能を導入し,ハイライト部分の視覚的特徴をさらに強化する。
実験の結果,提案したGMFVADは,主に4つのデータセット上で最先端のパフォーマンスを実現することがわかった。
アブレーション実験は、GMFVADの改善は冗長情報の減少に起因することも証明した。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文 参考訳(メタデータ) (2024-10-31T04:20:47Z) - EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。