論文の概要: MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2506.02535v2
- Date: Wed, 04 Jun 2025 06:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.541716
- Title: MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection
- Title(参考訳): MemoryOut: 半教師付きビデオ異常検出のためのマルチモーダルスパースフィルタリングネットワークによる主要特徴の学習
- Authors: Juntong Li, Lingwei Dang, Yukun Su, Yun Hao, Qingxin Xiao, Yongwei Nie, Qingyao Wu,
- Abstract要約: 再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
- 参考スコア(独自算出の注目度): 30.470777079947958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) methods based on reconstruction or prediction face two critical challenges: (1) strong generalization capability often results in accurate reconstruction or prediction of abnormal events, making it difficult to distinguish normal from abnormal patterns; (2) reliance only on low-level appearance and motion cues limits their ability to identify high-level semantic in abnormal events from complex scenes. To address these limitations, we propose a novel VAD framework with two key innovations. First, to suppress excessive generalization, we introduce the Sparse Feature Filtering Module (SFFM) that employs bottleneck filters to dynamically and adaptively remove abnormal information from features. Unlike traditional memory modules, it does not need to memorize the normal prototypes across the training dataset. Further, we design the Mixture of Experts (MoE) architecture for SFFM. Each expert is responsible for extracting specialized principal features during running time, and different experts are selectively activated to ensure the diversity of the learned principal features. Second, to overcome the neglect of semantics in existing methods, we integrate a Vision-Language Model (VLM) to generate textual descriptions for video clips, enabling comprehensive joint modeling of semantic, appearance, and motion cues. Additionally, we enforce modality consistency through semantic similarity constraints and motion frame-difference contrastive loss. Extensive experiments on multiple public datasets validate the effectiveness of our multimodal joint modeling framework and sparse feature filtering paradigm. Project page at https://qzfm.github.io/sfn_vad_project_page/.
- Abstract(参考訳): ビデオ異常検出(VAD)法は,(1)高次一般化能力は,異常事象の正確な再現や予測を招き,正常なパターンと異常なパターンを区別することが困難である場合,(2)低レベルの外観と動きにのみ依存し,複雑なシーンから異常事象の高レベルな意味を識別する能力を制限する場合の2つの重要な課題に直面している。
これらの制限に対処するため、我々は2つの重要な革新を伴う新しいVADフレームワークを提案する。
まず、過度な一般化を抑制するために、ボトルネックフィルタを用いて特徴量から異常情報を動的かつ適応的に除去するスパース・フィーチャー・フィルタリング・モジュール(SFFM)を導入する。
従来のメモリモジュールとは異なり、トレーニングデータセット全体にわたって通常のプロトタイプを記憶する必要はない。
さらに,SFFMのためのMixture of Experts (MoE)アーキテクチャを設計する。
各専門家は、実行中に専門的特徴を抽出する責任を負い、異なる専門家は、学習された主要特徴の多様性を保証するために選択的に活性化される。
第2に,既存手法のセマンティクスの無視を克服するため,ビデオクリップのテキスト記述を生成するために視覚言語モデル(VLM)を統合した。
さらに、意味的類似性制約や、フレーム差分によるコントラスト損失によるモダリティの整合性も強化する。
複数の公開データセットに対する大規模な実験により,マルチモーダル・ジョイント・モデリング・フレームワークとスパース・フィーチャー・フィルタリング・パラダイムの有効性が検証された。
プロジェクトページはhttps://qzfm.github.io/sfn_vad_project_page/。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - Adaptive Memory Networks with Self-supervised Learning for Unsupervised
Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。
本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。
AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-01-03T03:40:21Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。