論文の概要: HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2512.17601v2
- Date: Tue, 23 Dec 2025 10:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.736654
- Title: HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection
- Title(参考訳): HeadHunt-VAD:無調整ビデオ異常検出のためのMLLMにおけるロバスト異常検出
- Authors: Zhaolin Cai, Fan Li, Ziwei Zheng, Haixia Bi, Lijun He,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオの通常のパターンから逸脱するイベントを見つけることを目的としている。
MLLM(Multimodal Large Language Models)に基づく最近のチューニング不要な手法は、豊かな世界の知識を活用することで、有望な代替手段を提供する。
本稿では,ロバストな異常に敏感な内部アテンションヘッドを直接追尾することにより,テキスト生成を回避できる新しいチューニング不要なVADパラダイムであるHeadHunt-VADを提案する。
- 参考スコア(独自算出の注目度): 9.217348688177298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Anomaly Detection (VAD) aims to locate events that deviate from normal patterns in videos. Traditional approaches often rely on extensive labeled data and incur high computational costs. Recent tuning-free methods based on Multimodal Large Language Models (MLLMs) offer a promising alternative by leveraging their rich world knowledge. However, these methods typically rely on textual outputs, which introduces information loss, exhibits normalcy bias, and suffers from prompt sensitivity, making them insufficient for capturing subtle anomalous cues. To address these constraints, we propose HeadHunt-VAD, a novel tuning-free VAD paradigm that bypasses textual generation by directly hunting robust anomaly-sensitive internal attention heads within the frozen MLLM. Central to our method is a Robust Head Identification module that systematically evaluates all attention heads using a multi-criteria analysis of saliency and stability, identifying a sparse subset of heads that are consistently discriminative across diverse prompts. Features from these expert heads are then fed into a lightweight anomaly scorer and a temporal locator, enabling efficient and accurate anomaly detection with interpretable outputs. Extensive experiments show that HeadHunt-VAD achieves state-of-the-art performance among tuning-free methods on two major VAD benchmarks while maintaining high efficiency, validating head-level probing in MLLMs as a powerful and practical solution for real-world anomaly detection.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオの通常のパターンから逸脱するイベントを見つけることを目的としている。
伝統的なアプローチは、しばしば広範囲のラベル付きデータに依存し、高い計算コストを発生させる。
MLLM(Multimodal Large Language Models)に基づく最近のチューニング不要な手法は、豊かな世界の知識を活用することで、有望な代替手段を提供する。
しかし、これらの手法は典型的にはテキスト出力に依存しており、情報損失をもたらし、正規化バイアスを示し、迅速な感度に苦しむため、微妙な異常な手がかりを捉えるには不十分である。
これらの制約に対処するため,凍結MLLM内のロバストな異常に敏感な内部アテンションヘッドを直接追尾することにより,テキスト生成を回避できる新しいチューニング不要なVADパラダイムであるHeadHunt-VADを提案する。
提案手法の中心となるのがロバストヘッド同定モジュールであり,サリエンシと安定性を多基準で解析し,多様なプロンプトに対して一貫した差別性を有する頭部のスパースサブセットを同定し,すべての注目ヘッドを体系的に評価する。
これらのエキスパートヘッドの機能は、軽量な異常スコアラと時間的ロケータに入力され、解釈可能な出力で効率的かつ正確な異常検出を可能にする。
大規模な実験により,HeadHunt-VADは2つの主要なVADベンチマーク上でのチューニング不要な手法の最先端性能を実現し,MLLMにおけるヘッドレベルの探索を実世界の異常検出のための強力で実用的なソリューションとして検証した。
関連論文リスト
- HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。
本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:41:46Z) - Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [129.79394562739705]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。
本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。
4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文 参考訳(メタデータ) (2025-05-26T14:28:37Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Appearance Blur-driven AutoEncoder and Motion-guided Memory Module for Video Anomaly Detection [14.315287192621662]
ビデオ異常検出(VAD)は、しばしば正常なサンプルの分布を学習し、重要な偏差を測定することによって異常を検出する。
ほとんどのVADは、新しいターゲットドメインに対するデータセット間の検証には対応できない。
ゼロショットによるクロスデータセット検証を実現するため,動作誘導型メモリモジュールを用いた新しいVAD手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T07:48:20Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [89.92916473403108]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Towards Open Set Video Anomaly Detection [11.944167192592905]
Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。
本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱教師付き手法を開発した。
論文 参考訳(メタデータ) (2022-08-23T17:53:34Z) - Self-trained Deep Ordinal Regression for End-to-End Video Anomaly
Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。
我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文 参考訳(メタデータ) (2020-03-15T08:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。