論文の概要: No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.19248v1
- Date: Sun, 22 Feb 2026 16:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.548681
- Title: No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
- Title(参考訳): MLLMを利用したゼロショットビデオ異常検出
- Authors: Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao,
- Abstract要約: オープンワールドシナリオで実行されている既存のビデオ異常検出方法。
主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。
エンドツーエンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
- 参考スコア(独自算出の注目度): 15.949619310702579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The collection and detection of video anomaly data has long been a challenging problem due to its rare occurrence and spatio-temporal scarcity. Existing video anomaly detection (VAD) methods under perform in open-world scenarios. Key contributing factors include limited dataset diversity, and inadequate understanding of context-dependent anomalous semantics. To address these issues, i) we propose LAVIDA, an end-to-end zero-shot video anomaly detection framework. ii) LAVIDA employs an Anomaly Exposure Sampler that transforms segmented objects into pseudo-anomalies to enhance model adaptability to unseen anomaly categories. It further integrates a Multimodal Large Language Model (MLLM) to bolster semantic comprehension capabilities. Additionally, iii) we design a token compression approach based on reverse attention to handle the spatio-temporal scarcity of anomalous patterns and decrease computational cost. The training process is conducted solely on pseudo anomalies without any VAD data. Evaluations across four benchmark VAD datasets demonstrate that LAVIDA achieves SOTA performance in both frame-level and pixel-level anomaly detection under the zero-shot setting. Our code is available in https://github.com/VitaminCreed/LAVIDA.
- Abstract(参考訳): ビデオ異常データの収集と検出は、その稀な発生と時空間的不足により、長年の課題であった。
既存のビデオ異常検出(VAD)手法は、オープンワールドシナリオで実行されている。
主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。
これらの問題に対処する。
i) エンド・ツー・エンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
二 LAVIDAは、セグメント化されたオブジェクトを擬似アノマリーに変換する異常露光サンプリングを用いて、未知のアノマリーカテゴリに対するモデル適応性を高める。
さらに、意味理解能力を高めるためにMLLM(Multimodal Large Language Model)を統合する。
また、
三 逆の注意に基づくトークン圧縮手法を設計し、異常パターンの時空間的不足に対処し、計算コストを低減させる。
トレーニングプロセスは、VADデータなしで擬似異常に対してのみ実行される。
4つのベンチマークVADデータセットで評価したところ、LAVIDAはゼロショット設定下でフレームレベルとピクセルレベルの異常検出の両方でSOTA性能を達成することがわかった。
私たちのコードはhttps://github.com/VitaminCreed/LAVIDA.comで利用可能です。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline [63.96226274616927]
Track Any Anomalous Object (TAO)と呼ばれる新しいフレームワークでは、詳細なビデオ異常検出パイプラインが導入されている。
各画素に異常スコアを割り当てる手法とは異なり、我々の手法は問題から異常オブジェクトの画素レベルの追跡に変換する。
実験の結果、TAOは新しいベンチマークを精度と堅牢性で設定した。
論文 参考訳(メタデータ) (2025-06-05T15:49:39Z) - Language-guided Open-world Video Anomaly Detection under Weak Supervision [27.912128185225054]
ビデオ異常検出(VAD)は、期待から外れた異常を検出することを目的としている。
既存の方法では、異常の定義は不変であり、したがって開世界に適用できないと仮定している。
本稿では,ユーザが提案する自然言語を推論時にガイド付き検出できる,可変定義を持つ新しいオープンワールドVADパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-17T13:31:19Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - Anomaly Detection in Video Sequences: A Benchmark and Computational
Model [25.25968958782081]
本稿では,ビデオシーケンスにおける異常検出のベンチマークとして,新しい大規模異常検出(LAD)データベースを提案する。
通常のビデオクリップや異常なビデオクリップを含む2000の動画シーケンスが含まれており、クラッシュ、火災、暴力など14の異常なカテゴリーがある。
ビデオレベルラベル(異常/正常ビデオ、異常タイプ)やフレームレベルラベル(異常/正常ビデオフレーム)を含むアノテーションデータを提供し、異常検出を容易にする。
完全教師付き学習問題として異常検出を解くために,マルチタスク深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。