論文の概要: Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.15205v1
- Date: Wed, 21 May 2025 07:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.111644
- Title: Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection
- Title(参考訳): Flashback:メモリ駆動ゼロショット、リアルタイムビデオ異常検出
- Authors: Hyogun Lee, Haksub Kim, Ig-Jae Kim, Yonghun Choi,
- Abstract要約: Flashbackはゼロショットおよびリアルタイムビデオ異常検出パラダイムである。
異常を即座に判断する人間の認知メカニズムにインスパイアされたFlashbackは、RecallとRespondの2つの段階で動作する。
推論時にすべてのLSMコールを削除することで、FlashbackはコンシューマグレードのGPU上でもリアルタイムのVADを提供する。
- 参考スコア(独自算出の注目度): 11.197888893266535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Anomaly Detection (VAD) automatically identifies anomalous events from video, mitigating the need for human operators in large-scale surveillance deployments. However, three fundamental obstacles hinder real-world adoption: domain dependency and real-time constraints -- requiring near-instantaneous processing of incoming video. To this end, we propose Flashback, a zero-shot and real-time video anomaly detection paradigm. Inspired by the human cognitive mechanism of instantly judging anomalies and reasoning in current scenes based on past experience, Flashback operates in two stages: Recall and Respond. In the offline recall stage, an off-the-shelf LLM builds a pseudo-scene memory of both normal and anomalous captions without any reliance on real anomaly data. In the online respond stage, incoming video segments are embedded and matched against this memory via similarity search. By eliminating all LLM calls at inference time, Flashback delivers real-time VAD even on a consumer-grade GPU. On two large datasets from real-world surveillance scenarios, UCF-Crime and XD-Violence, we achieve 87.3 AUC (+7.0 pp) and 75.1 AP (+13.1 pp), respectively, outperforming prior zero-shot VAD methods by large margins.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオから異常事象を自動的に識別し、大規模な監視デプロイメントにおける人間のオペレータの必要性を軽減する。
しかし、ドメイン依存性とリアルタイム制約という3つの基本的な障害が、実際の採用を妨げる。
この目的のために,ゼロショットおよびリアルタイムビデオ異常検出パラダイムであるFlashbackを提案する。
過去の経験に基づく現在の場面における異常や推論を即座に判断する人間の認知メカニズムにインスパイアされたFlashbackは、RecallとRespondの2つの段階で動作する。
オフラインのリコール段階では、オフザシェルフLLMは、実際の異常データに依存することなく、通常のキャプションと異常なキャプションの両方の擬似シーンメモリを構築する。
オンライン応答の段階では、受信したビデオセグメントを埋め込み、類似検索によってこのメモリとマッチングする。
推論時にすべてのLSMコールを削除することで、FlashbackはコンシューマグレードのGPU上でもリアルタイムのVADを提供する。
UCF-CrimeとXD-Violenceという実世界の監視シナリオから得られた2つの大きなデータセットでは、87.3 AUC (+7.0 pp) と75.1 AP (+13.1 pp) をそれぞれ達成し、前回のゼロショットVAD法よりも大きなマージンで上回っている。
関連論文リスト
- EventVAD: Training-Free Event-Aware Video Anomaly Detection [19.714436150837148]
EventVADはイベント対応のビデオ異常検出フレームワークである。
調整された動的グラフアーキテクチャとマルチモーダル・イベント推論を組み合わせる。
トレーニング不要な環境での最先端(SOTA)を実現し、7B以上のMLLMを使用する強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-17T16:59:04Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Memory-augmented Online Video Anomaly Detection [2.269915940890348]
本稿では,ダッシュマウントカメラで撮影した映像のみを利用して,オンラインで動作可能なシステムを提案する。
モバドのAUCスコアは82.17%に達し、現在の最先端である+2.87 AUCを上回っている。
論文 参考訳(メタデータ) (2023-02-21T15:14:27Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。