論文の概要: SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model
- arxiv url: http://arxiv.org/abs/2504.10320v1
- Date: Mon, 14 Apr 2025 15:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:23.724772
- Title: SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model
- Title(参考訳): SlowFastVAD: 簡易検出器とRAG強化ビジョンランゲージモデルの統合によるビデオ異常検出
- Authors: Zongcan Ding, Haodong Zhang, Peng Wu, Guansong Pang, Zhiwei Yang, Peng Wang, Yanning Zhang,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
- 参考スコア(独自算出の注目度): 52.47816604709358
- License:
- Abstract: Video anomaly detection (VAD) aims to identify unexpected events in videos and has wide applications in safety-critical domains. While semi-supervised methods trained on only normal samples have gained traction, they often suffer from high false alarm rates and poor interpretability. Recently, vision-language models (VLMs) have demonstrated strong multimodal reasoning capabilities, offering new opportunities for explainable anomaly detection. However, their high computational cost and lack of domain adaptation hinder real-time deployment and reliability. Inspired by dual complementary pathways in human visual perception, we propose SlowFastVAD, a hybrid framework that integrates a fast anomaly detector with a slow anomaly detector (namely a retrieval augmented generation (RAG) enhanced VLM), to address these limitations. Specifically, the fast detector first provides coarse anomaly confidence scores, and only a small subset of ambiguous segments, rather than the entire video, is further analyzed by the slower yet more interpretable VLM for elaborate detection and reasoning. Furthermore, to adapt VLMs to domain-specific VAD scenarios, we construct a knowledge base including normal patterns based on few normal samples and abnormal patterns inferred by VLMs. During inference, relevant patterns are retrieved and used to augment prompts for anomaly reasoning. Finally, we smoothly fuse the anomaly confidence of fast and slow detectors to enhance robustness of anomaly detection. Extensive experiments on four benchmarks demonstrate that SlowFastVAD effectively combines the strengths of both fast and slow detectors, and achieves remarkable detection accuracy and interpretability with significantly reduced computational overhead, making it well-suited for real-world VAD applications with high reliability requirements.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
通常のサンプルのみを訓練する半教師の手法は牽引力を得てきたが、しばしば偽の警報率が高く、解釈性に乏しい。
近年、視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、説明可能な異常検出の新しい機会を提供している。
しかし、高い計算コストとドメイン適応の欠如により、リアルタイムのデプロイメントと信頼性が損なわれる。
SlowFastVADは、高速な異常検知器と低速な異常検出器(RAG拡張VLM)を統合し、これらの制限に対処するハイブリッドフレームワークである。
特に、高速検出器は、まず粗い異常な信頼スコアを提供し、ビデオ全体ではなく、少数の曖昧な部分のみを、より遅くてより解釈可能なVLMによって分析し、精巧な検出と推論を行う。
さらに, VLM をドメイン固有の VAD シナリオに適用するために, サンプルの少ない正規パターンとVLM が推定する異常パターンに基づく知識ベースを構築した。
推論中、関連パターンが検索され、異常推論のプロンプトを増強するために使用される。
最後に、高速かつ低速な検出器の異常な信頼性を円滑に融合させ、異常検出の堅牢性を高める。
4つのベンチマークにおいて、SlowFastVADは高速検出器と低速検出器の両方の強度を効果的に組み合わせ、計算オーバーヘッドを大幅に削減し、顕著な検出精度と解釈可能性を実現し、信頼性の高い現実のVADアプリケーションに適していることを示した。
関連論文リスト
- Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [2.0179223501624786]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-28T16:24:35Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。
State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。
本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:22:41Z) - FastAno: Fast Anomaly Detection via Spatio-temporal Patch Transformation [6.112591965159383]
本研究では,空間回転変換 (SRT) と時間混合変換 (TMT) を提案し,通常のフレームキューブ内で不規則なパッチキューブを生成する。
提案手法は,3つの異常検出ベンチマークで評価され,競争精度が向上し,それまでのすべての作業を速度的に上回っている。
論文 参考訳(メタデータ) (2021-06-16T08:14:31Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。