論文の概要: No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.19248v1
- Date: Sun, 22 Feb 2026 16:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.548681
- Title: No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
- Title(参考訳): MLLMを利用したゼロショットビデオ異常検出
- Authors: Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao,
- Abstract要約: オープンワールドシナリオで実行されている既存のビデオ異常検出方法。
主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。
エンドツーエンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
- 参考スコア(独自算出の注目度): 15.949619310702579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The collection and detection of video anomaly data has long been a challenging problem due to its rare occurrence and spatio-temporal scarcity. Existing video anomaly detection (VAD) methods under perform in open-world scenarios. Key contributing factors include limited dataset diversity, and inadequate understanding of context-dependent anomalous semantics. To address these issues, i) we propose LAVIDA, an end-to-end zero-shot video anomaly detection framework. ii) LAVIDA employs an Anomaly Exposure Sampler that transforms segmented objects into pseudo-anomalies to enhance model adaptability to unseen anomaly categories. It further integrates a Multimodal Large Language Model (MLLM) to bolster semantic comprehension capabilities. Additionally, iii) we design a token compression approach based on reverse attention to handle the spatio-temporal scarcity of anomalous patterns and decrease computational cost. The training process is conducted solely on pseudo anomalies without any VAD data. Evaluations across four benchmark VAD datasets demonstrate that LAVIDA achieves SOTA performance in both frame-level and pixel-level anomaly detection under the zero-shot setting. Our code is available in https://github.com/VitaminCreed/LAVIDA.
- Abstract(参考訳): ビデオ異常データの収集と検出は、その稀な発生と時空間的不足により、長年の課題であった。
既存のビデオ異常検出(VAD)手法は、オープンワールドシナリオで実行されている。
主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。
これらの問題に対処する。
i) エンド・ツー・エンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
二 LAVIDAは、セグメント化されたオブジェクトを擬似アノマリーに変換する異常露光サンプリングを用いて、未知のアノマリーカテゴリに対するモデル適応性を高める。
さらに、意味理解能力を高めるためにMLLM(Multimodal Large Language Model)を統合する。
また、
三 逆の注意に基づくトークン圧縮手法を設計し、異常パターンの時空間的不足に対処し、計算コストを低減させる。
トレーニングプロセスは、VADデータなしで擬似異常に対してのみ実行される。
4つのベンチマークVADデータセットで評価したところ、LAVIDAはゼロショット設定下でフレームレベルとピクセルレベルの異常検出の両方でSOTA性能を達成することがわかった。
私たちのコードはhttps://github.com/VitaminCreed/LAVIDA.comで利用可能です。
関連論文リスト
- Language-guided Open-world Video Anomaly Detection under Weak Supervision [27.912128185225054]
ビデオ異常検出(VAD)は、期待から外れた異常を検出することを目的としている。
既存の方法では、異常の定義は不変であり、したがって開世界に適用できないと仮定している。
本稿では,ユーザが提案する自然言語を推論時にガイド付き検出できる,可変定義を持つ新しいオープンワールドVADパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-17T13:31:19Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。