論文の概要: ESOM: Efficiently Understanding Streaming Video Anomalies with Open-world Dynamic Definitions
- arxiv url: http://arxiv.org/abs/2604.07772v1
- Date: Thu, 09 Apr 2026 03:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.681448
- Title: ESOM: Efficiently Understanding Streaming Video Anomalies with Open-world Dynamic Definitions
- Title(参考訳): ESOM: オープンワールド動的定義によるストリーミングビデオ異常の効率的な理解
- Authors: Zihao Liu, Xiaoyu Wu, Wenna Li, Jianqin Wu, Linlin Yang,
- Abstract要約: オープンワールドビデオ異常検出(OWVAD)は、異なる異常定義の下で異常事象を検出し、説明することを目的としている。
最近のMLLMベースの手法は、将来有望なオープンワールドの一般化を示しているが、それでも3つの大きな制限に悩まされている。
本稿では,トレーニング不要な効率的なストリーミングOWVADモデルであるESOMを提案する。
- 参考スコア(独自算出の注目度): 27.912128185225054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world video anomaly detection (OWVAD) aims to detect and explain abnormal events under different anomaly definitions, which is important for applications such as intelligent surveillance and live-streaming content moderation. Recent MLLM-based methods have shown promising open-world generalization, but still suffer from three major limitations: inefficiency for practical deployment, lack of streaming processing adaptation, and limited support for dynamic anomaly definitions in both modeling and evaluation. To address these issues, this paper proposes ESOM, an efficient streaming OWVAD model that operates in a training-free manner. ESOM includes a Definition Normalization module to structure user prompts for reducing hallucination, an Inter-frame-matched Intra-frame Token Merging module to compress redundant visual tokens, a Hybrid Streaming Memory module for efficient causal inference, and a Probabilistic Scoring module that converts interval-level textual outputs into frame-level anomaly scores. In addition, this paper introduces OpenDef-Bench, a new benchmark with clean surveillance videos and diverse natural anomaly definitions for evaluating performance under varying conditions. Extensive experiments show that ESOM achieves real-time efficiency on a single GPU and state-of-the-art performance in anomaly temporal localization, classification, and description generation. The code and benchmark will be released at https://github.com/Kamino666/ESOM_OpenDef-Bench.
- Abstract(参考訳): オープンワールドビデオ異常検出(OWVAD)は、インテリジェント監視やライブストリーミングコンテンツモデレーションなどのアプリケーションにおいて重要な、異なる異常定義の下での異常事象の検出と説明を目的としている。
MLLMに基づく最近の手法では、オープンワールドの一般化が期待できるが、実用的展開の非効率性、ストリーミング処理適応の欠如、モデリングと評価の両方において動的異常定義の制限という3つの大きな制限がある。
これらの問題に対処するため,本研究では,トレーニング不要な効率的なストリーミングOWVADモデルであるESOMを提案する。
ESOMには、幻覚を減らすためのユーザプロンプトを構築するための定義正規化モジュール、冗長な視覚トークンを圧縮するためのフレーム間整合型トークンマージモジュール、効率的な因果推論のためのハイブリッドストリーミングメモリモジュール、フレームレベルのテキスト出力をフレームレベルの異常スコアに変換する確率的スコアモジュールが含まれる。
さらに、クリーンな監視ビデオと様々な条件下での性能を評価するための多様な自然異常定義を備えた新しいベンチマークOpenDef-Benchを紹介する。
大規模な実験により、ESOMは1つのGPU上でリアルタイムな効率を実現し、異常な時間的ローカライゼーション、分類、記述生成における最先端のパフォーマンスを実現する。
コードとベンチマークはhttps://github.com/Kamino666/ESOM_OpenDef-Benchで公開される。
関連論文リスト
- Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning [23.043341269626016]
本稿では,WS-VAD のための Anomaly Semantics を学習するための LAS-VAD という新しいフレームワークを提案する。
本フレームワークは,異常接続されたコンポーネント機構と意図認識機構を統合している。
最先端の手法よりも優れており、顕著な利得がある。
論文 参考訳(メタデータ) (2026-02-28T08:57:33Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding [48.0087455344611]
ビデオ異常理解(VAU)は、従来のビデオ異常検出(VAD)を拡張し、それらのコンテキストを記述し、推論する。
既存のVAUアプローチは、細調整されたマルチモーダル言語モデル(MLLM)やビデオキャプタなどの外部モジュールに依存していることが多い。
実時間VAUのための軽量で効果的なシステムであるPrismVAUを導入し,1つのオフ・ザ・シェルフMLLMを用いて異常スコア,説明,迅速な最適化を行う。
論文 参考訳(メタデータ) (2026-01-06T11:11:06Z) - Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression [15.099304324307434]
マイクロ・エクスプレッション(ME)は、不随意、低強度、短時間の表情である。
既存のME分析手法の多くは、固定されたウィンドウサイズと難しい決定を伴うウィンドウレベルの分類に依存している。
本稿では,ME解析のための事前誘導型ビデオレベル回帰手法を提案する。
論文 参考訳(メタデータ) (2025-08-26T09:13:36Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。