論文の概要: Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.24021v1
- Date: Fri, 27 Feb 2026 13:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.4539
- Title: Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection
- Title(参考訳): ビデオ異常検出のための冷凍多モードLCMにおけるステアリングおよび整形潜時表現マニフォールド
- Authors: Zhaolin Cai, Fan Li, Huiyu Duan, Lijun He, Guangtao Zhai,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 52.5174167737992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video anomaly detection (VAD) aims to identify abnormal events in videos. Traditional VAD methods generally suffer from the high costs of labeled data and full training, thus some recent works have explored leveraging frozen multi-modal large language models (MLLMs) in a tuning-free manner to perform VAD. However, their performance is limited as they directly inherit pre-training biases and cannot adapt internal representations to specific video contexts, leading to difficulties in handling subtle or ambiguous anomalies. To address these limitations, we propose a novel intervention framework, termed SteerVAD, which advances MLLM-based VAD by shifting from passively reading to actively steering and rectifying internal representations. Our approach first leverages the gradient-free representational separability analysis (RSA) to identify top attention heads as latent anomaly experts (LAEs) which are most discriminative for VAD. Then a hierarchical meta-controller (HMC) generates dynamic rectification signals by jointly conditioning on global context and these LAE outputs. The signals execute targeted, anisotropic scaling directly upon the LAE representation manifolds, amplifying anomaly-relevant dimensions while suppressing inherent biases. Extensive experiments on mainstream benchmarks demonstrate our method achieves state-of-the-art performance among tuning-free approaches requiring only 1% of training data, establishing it as a powerful new direction for video anomaly detection. The code will be released upon the publication.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
従来のVAD手法はラベル付きデータとフルトレーニングのコストが高いため、最近の研究では、VADを実行するために、凍結したマルチモーダルな大規模言語モデル(MLLM)を活用する方法が検討されている。
しかし、トレーニング前のバイアスを直接受け継ぎ、特定のビデオコンテキストに内部表現を適応できないため、そのパフォーマンスは制限されており、微妙なまたは曖昧な異常を扱うのが困難である。
これらの制約に対処するため、我々はSteerVADと呼ばれる新しい介入フレームワークを提案し、MLLMベースのVADを受動的に読み上げから内部表現を積極的に操り、修正する。
我々のアプローチはまず、勾配のない表現分離分析(RSA)を利用して、最上位の注意をVADの最も差別的な潜在異常専門家(LAE)として識別する。
そして、階層型メタコントローラ(HMC)は、グローバルコンテキストとこれらのLAE出力を協調条件にすることで動的整合信号を生成する。
信号は、LAE表現多様体上で直接標的となる異方性スケーリングを実行し、固有バイアスを抑えながら、異常関連次元を増幅する。
本手法は,トレーニングデータの1%しか必要とせず,ビデオ異常検出のための強力な新たな方向として確立されている。
コードは公開時に公開される。
関連論文リスト
- HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection [9.217348688177298]
ビデオ異常検出(VAD)は、ビデオの通常のパターンから逸脱するイベントを見つけることを目的としている。
MLLM(Multimodal Large Language Models)に基づく最近のチューニング不要な手法は、豊かな世界の知識を活用することで、有望な代替手段を提供する。
本稿では,ロバストな異常に敏感な内部アテンションヘッドを直接追尾することにより,テキスト生成を回避できる新しいチューニング不要なVADパラダイムであるHeadHunt-VADを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:07:34Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。
本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:41:46Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Appearance Blur-driven AutoEncoder and Motion-guided Memory Module for Video Anomaly Detection [14.315287192621662]
ビデオ異常検出(VAD)は、しばしば正常なサンプルの分布を学習し、重要な偏差を測定することによって異常を検出する。
ほとんどのVADは、新しいターゲットドメインに対するデータセット間の検証には対応できない。
ゼロショットによるクロスデータセット検証を実現するため,動作誘導型メモリモジュールを用いた新しいVAD手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T07:48:20Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。