論文の概要: Cerberus: Real-Time Video Anomaly Detection via Cascaded Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.16290v1
- Date: Sat, 18 Oct 2025 01:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.930246
- Title: Cerberus: Real-Time Video Anomaly Detection via Cascaded Vision-Language Models
- Title(参考訳): Cerberus:Cascaded Vision-Language Modelによるリアルタイムビデオ異常検出
- Authors: Yue Zheng, Xiufang Shi, Jiming Chen, Yuanchao Shu,
- Abstract要約: セルベロス (Cerberus) は、2段階のカスケードシステムである。
通常の動作ルールをオフラインで学習し、オンライン推論中に軽量フィルタリングと精細なVLM推論を組み合わせる。
Cerberusは平均57.68fpsのNVIDIA L40S GPU、151.79$times$ speedup、そして97.2%の精度で最先端のVLMベースのVADメソッドに匹敵する精度を実現している。
- 参考スコア(独自算出の注目度): 20.102770709407437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video anomaly detection (VAD) has rapidly advanced by recent development of Vision-Language Models (VLMs). While these models offer superior zero-shot detection capabilities, their immense computational cost and unstable visual grounding performance hinder real-time deployment. To overcome these challenges, we introduce Cerberus, a two-stage cascaded system designed for efficient yet accurate real-time VAD. Cerberus learns normal behavioral rules offline, and combines lightweight filtering with fine-grained VLM reasoning during online inference. The performance gains of Cerberus come from two key innovations: motion mask prompting and rule-based deviation detection. The former directs the VLM's attention to regions relevant to motion, while the latter identifies anomalies as deviations from learned norms rather than enumerating possible anomalies. Extensive evaluations on four datasets show that Cerberus on average achieves 57.68 fps on an NVIDIA L40S GPU, a 151.79$\times$ speedup, and 97.2\% accuracy comparable to the state-of-the-art VLM-based VAD methods, establishing it as a practical solution for real-time video analytics.
- Abstract(参考訳): VLM(Vision-Language Models)の開発により,ビデオ異常検出(VAD)が急速に進歩している。
これらのモデルは優れたゼロショット検出機能を提供するが、その膨大な計算コストと不安定な視覚的グラウンド性能は、リアルタイムのデプロイメントを妨げる。
これらの課題を克服するために、我々はCerberusという2段階のカスケードシステムを紹介した。
Cerberusは通常の動作ルールをオフラインで学習し、オンライン推論中に軽量フィルタリングと詳細なVLM推論を組み合わせる。
Cerberusのパフォーマンス向上には、モーションマスクプロンプトとルールベースの偏差検出という、2つの重要なイノベーションがある。
前者はVLMの注意を運動に関連する領域に向け、後者は異常をありうる異常を列挙するのではなく、学習規範からの逸脱とみなす。
4つのデータセットの大規模な評価によると、Cerberusは平均57.68fpsのNVIDIA L40S GPU、151.79$\times$ Speedup、97.2\%の精度で最先端のVLMベースのVAD手法に匹敵する精度を達成し、リアルタイムビデオ分析の実用的なソリューションとして確立している。
関連論文リスト
- Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection [11.197888893266535]
Flashbackはゼロショットおよびリアルタイムビデオ異常検出パラダイムである。
異常を即座に判断する人間の認知メカニズムにインスパイアされたFlashbackは、RecallとRespondの2つの段階で動作する。
推論時にすべてのLSMコールを削除することで、FlashbackはコンシューマグレードのGPU上でもリアルタイムのVADを提供する。
論文 参考訳(メタデータ) (2025-05-21T07:32:29Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。