論文の概要: CoReVAD: A Contextual Reasoning Framework for Training-Free Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.23116v1
- Date: Fri, 22 May 2026 00:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.140482
- Title: CoReVAD: A Contextual Reasoning Framework for Training-Free Video Anomaly Detection
- Title(参考訳): CoReVAD: 学習不要なビデオ異常検出のためのコンテキスト推論フレームワーク
- Authors: Hyeongmuk Lim, Youngbum Hur,
- Abstract要約: CoReVADは、トレーニング不要なビデオ異常検出のためのコンテキスト推論フレームワークである。
生成出力のノイズを軽減するために,ローカル応答クリーニング(LRC)モジュールを導入する。
UCF-CrimeとXD-Violenceの実験は、CoReVADがトレーニング不要の手法間の競争性能を達成することを示した。
- 参考スコア(独自算出の注目度): 0.14323566945483493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Video Anomaly Detection (VAD) methods typically rely on task-specific training, leading to strong domain dependency and high training costs. Moreover, most existing methods output only scalar anomaly scores, providing limited insight into why specific events are considered abnormal. Recent advances in Vision-Language Models (VLMs) have enabled both anomaly detection and human-interpretable reasoning. However, many VLM-based approaches still require additional training steps (e.g., instruction tuning or verbalized learning) or external Large Language Models (LLMs), incurring further training costs and inference overhead. To address these challenges, we propose CoReVAD, a contextual reasoning framework for training-free video anomaly detection that operates with a single frozen VLM. CoReVAD directly generates anomaly scores and temporal descriptions from the VLM. To mitigate noise in generative outputs, we introduce a Local Response Cleaning (LRC) module based on local vision-text alignment. Furthermore, global temporal context and progression are incorporated through softmax-based refinement, Gaussian smoothing, and position weighting. Experiments on UCF-Crime and XD-Violence demonstrate that CoReVAD achieves competitive performance among training-free methods while providing reliable and interpretable explanations. Our official code is available at: https://github.com/Muk-00/CoReVAD
- Abstract(参考訳): 既存のビデオ異常検出(VAD)手法は一般的にタスク固有のトレーニングに依存しており、強いドメイン依存と高いトレーニングコストをもたらす。
さらに、既存のほとんどの手法はスカラー異常スコアのみを出力し、特定の事象がなぜ異常であると考えられるかについての限られた洞察を与える。
近年のVLM(Vision-Language Models)は,異常検出と人間の解釈可能な推論の両方を可能にしている。
しかしながら、多くのVLMベースのアプローチでは、追加のトレーニングステップ(例えば、命令チューニングや言語学習)や外部のLarge Language Models (LLM)が必要であり、さらなるトレーニングコストと推論オーバーヘッドが生じる。
このような課題に対処するために,トレーニング不要なビデオ異常検出のためのコンテキスト推論フレームワークであるCoReVADを提案する。
CoReVADはVLMから直接異常スコアと時間的記述を生成する。
生成出力のノイズを軽減するために,局所視覚テキストアライメントに基づく局所応答クリーニング(LRC)モジュールを導入する。
さらに、グローバルな時間的文脈と進行は、ソフトマックスに基づく洗練、ガウス的平滑化、位置重み付けによってもたらされる。
UCF-CrimeとXD-Violenceの実験により、CoReVADは、信頼性と解釈可能な説明を提供しながら、トレーニング不要なメソッド間の競合性能を達成することを示した。
公式コードは、https://github.com/Muk-00/CoReVAD.comで入手可能です。
関連論文リスト
- SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere [90.85001795656633]
ビデオ異常検出(VAD)は、トリミングされていない監視ビデオの通常のパターンから逸脱するイベントを自動的に識別することを目的としている。
SphereVADはトレーニング不要でゼロショットのVADフレームワークで、単位超球面上の準比測地線推定をvon Mises-Fisher (vMF) と再放送する。
論文 参考訳(メタデータ) (2026-05-08T16:57:38Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting [17.850029260662648]
本稿では,ビデオ異常検出のための構造化プロンプトフレームワークであるASK-Hintを提案する。
提案手法は, セマンティック・コヒーレントなグループにプロンプトを整理し, きめ細かい案内質問を定式化する。
UCF-CrimeとXD-Violenceの実験では、ASK-Hintは以前のベースラインよりも一貫してAUCを改善している。
論文 参考訳(メタデータ) (2025-10-02T16:06:31Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - EventVAD: Training-Free Event-Aware Video Anomaly Detection [19.714436150837148]
EventVADはイベント対応のビデオ異常検出フレームワークである。
調整された動的グラフアーキテクチャとマルチモーダル・イベント推論を組み合わせる。
トレーニング不要な環境での最先端(SOTA)を実現し、7B以上のMLLMを使用する強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-17T16:59:04Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。