論文の概要: Text-guided Fine-Grained Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2511.00524v1
- Date: Sat, 01 Nov 2025 11:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.823032
- Title: Text-guided Fine-Grained Video Anomaly Detection
- Title(参考訳): テキスト誘導ファイングラインドビデオ異常検出
- Authors: Jihao Gu, Kun Li, He Wang, Kaan Akşit,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオセグメント内の異常事象を特定することを目的としている。
従来のVADは、通常または異常として限られた出力を提供する。
我々は,LVLM(Large Vision-Language Model)に基づくフレームワークであるT-VAD(Text-Guided Fine-Grained Video Anomaly Detection)を提案する。
- 参考スコア(独自算出の注目度): 11.301496479700939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Anomaly Detection (VAD) aims to identify anomalous events within video segments. In scenarios such as surveillance or industrial process monitoring, anomaly detection is of critical importance. While existing approaches are semi-automated, requiring human assessment for anomaly detection, traditional VADs offer limited output as either normal or anomalous. We propose Text-guided Fine-Grained Video Anomaly Detection (T-VAD), a framework built upon Large Vision-Language Model (LVLM). T-VAD introduces an Anomaly Heatmap Decoder (AHD) that performs pixel-wise visual-textual feature alignment to generate fine-grained anomaly heatmaps. Furthermore, we design a Region-aware Anomaly Encoder (RAE) that transforms the heatmaps into learnable textual embeddings, guiding the LVLM to accurately identify and localize anomalous events in videos. This significantly enhances both the granularity and interactivity of anomaly detection. The proposed method achieving SOTA performance by demonstrating 94.8% Area Under the Curve (AUC, specifically micro-AUC) and 67.8%/76.7% accuracy in anomaly heatmaps (RBDC/TBDC) on the UBnormal dataset, and subjectively verified more preferable textual description on the ShanghaiTech-based dataset (BLEU-4: 62.67 for targets, 88.84 for trajectories; Yes/No accuracy: 97.67%), and on the UBnormal dataset (BLEU-4: 50.32 for targets, 78.10 for trajectories; Yes/No accuracy: 89.73%).
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオセグメント内の異常事象を特定することを目的としている。
監視や産業プロセス監視のようなシナリオでは、異常検出が重要である。
既存のアプローチは半自動であり、人間の異常検出に対する評価を必要とするが、従来のVADは正常または異常のどちらかとして限られた出力を提供する。
本稿では,LVLM(Large Vision-Language Model)上に構築されたフレームワークであるT-VAD(Text-guided Fine-Grained Video Anomaly Detection)を提案する。
T-VADはAHD(Anomaly Heatmap Decoder)を導入している。
さらに,ビデオ中の異常事象を正確に識別・ローカライズするためにLVLMを導くことで,ヒートマップを学習可能なテキスト埋め込みに変換する領域認識型異常エンコーダ(RAE)を設計する。
これにより、異常検出の粒度と相互作用性が著しく向上する。
提案手法は,上海技術ベースデータセット (BLEU-4: 62.67, トラジェクトリは 88.84, トラジェクトリは 97.67%, ターゲットは BLEU-4: 50.32, ターゲットは 78.10, トラジェクトリは 89.73%) において, 異常熱マップ (RBDC/TBDC) における94.8%, 異常熱マップ (RBDC/TBDC) における67.8%/76.7%の精度を示すことによってSOTA性能を実現する。
関連論文リスト
- Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline [63.96226274616927]
Track Any Anomalous Object (TAO)と呼ばれる新しいフレームワークでは、詳細なビデオ異常検出パイプラインが導入されている。
各画素に異常スコアを割り当てる手法とは異なり、我々の手法は問題から異常オブジェクトの画素レベルの追跡に変換する。
実験の結果、TAOは新しいベンチマークを精度と堅牢性で設定した。
論文 参考訳(メタデータ) (2025-06-05T15:49:39Z) - Exploring the Magnitude-Shape Plot Framework for Anomaly Detection in Crowded Video Scenes [3.6961981570832374]
本研究では,機能的データ分析フレームワークにおけるビデオ異常検出について検討し,Magnitude-Shape (MS) Plotの適用性に着目した。
オートエンコーダは、異常のないトレーニングデータから通常の行動パターンを学習し、再構成するために使用される。
MS-Plotは、統計的に原則化された、異常検出のための解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-29T05:58:50Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Simple Adaptive Projection with Pretrained Features for Anomaly
Detection [0.0]
本稿では,単純な線形変換と自己注意を含む新しい適応フレームワークを提案する。
事前訓練した特徴を持つ簡易適応投影法(SAP2)により,新しい異常検出基準が得られた。
論文 参考訳(メタデータ) (2021-12-05T15:29:59Z) - Localizing Anomalies from Weakly-Labeled Videos [45.58643708315132]
Weakly Supervised Anomaly Localization (WSAL)法を提案する。
異常映像の出現差にインスパイアされ, 隣接する時間領域の進化を異常映像の局所化のために評価した。
提案手法は,UCF-CrimeおよびTADデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-20T12:58:03Z) - Patch SVDD: Patch-level SVDD for Anomaly Detection and Segmentation [30.499125737099185]
異常検出は、入力画像が異常を含むかどうかを二項決定する。
我々は,自己教師付き学習を用いたパッチベースの手法に,サポートベクタデータ記述(SVDD)を拡張した。
本研究は,提案手法の有効性と産業応用の可能性を示すものである。
論文 参考訳(メタデータ) (2020-06-29T14:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。