論文の概要: Video Anomaly Detection with Structured Keywords
- arxiv url: http://arxiv.org/abs/2503.10653v1
- Date: Fri, 07 Mar 2025 20:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 06:38:28.195494
- Title: Video Anomaly Detection with Structured Keywords
- Title(参考訳): 構造化キーワードを用いたビデオ異常検出
- Authors: Thomas Foltz,
- Abstract要約: 本稿では,基本モデルの特徴表現一般化機能を活用したキーワードを用いた監視ビデオの異常検出に焦点を当てた。
キーワード重みを用いた異常分類のための,新しい軽量パイプラインを提案する。
Ped2, Shanghai Tech, CUHK Avenueの3つのベンチマークでは, ROC AUCスコアが0.865, 0.745, 0.742であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper focuses on detecting anomalies in surveillance video using keywords by leveraging foundational models' feature representation generalization capabilities. We present a novel, lightweight pipeline for anomaly classification using keyword weights. Our pipeline employs a two-stage process: induction followed by deduction. In induction, descriptions are generated from normal and anomalous frames to identify and assign weights to relevant keywords. In deduction, inference frame descriptions are converted into keyword encodings using induction-derived weights for input into our neural network for anomaly classification. We achieved comparable performance on the three benchmarks UCSD Ped2, Shanghai Tech, and CUHK Avenue, with ROC AUC scores of 0.865, 0.745, and 0.742, respectively. These results are achieved without temporal context, making such a system viable for real-time applications. Our model improves implementation setup, interpretability, and inference speed for surveillance devices on the edge, introducing a performance trade-off against other video anomaly detection systems. As the generalization capabilities of open-source foundational models improve, our model demonstrates that the exclusive use of text for feature representations is a promising direction for efficient real-time interpretable video anomaly detection.
- Abstract(参考訳): 本稿では,基本モデルの特徴表現一般化機能を活用したキーワードを用いた監視ビデオの異常検出に焦点を当てた。
キーワード重みを用いた異常分類のための,新しい軽量パイプラインを提案する。
私たちのパイプラインは2段階のプロセスを採用しています。
帰納法では、通常のフレームと異常フレームから記述を生成して、関連するキーワードに重みを識別し割り当てる。
推論フレーム記述は、帰納的重みを用いたキーワードエンコーディングに変換され、異常分類のためにニューラルネットワークに入力される。
UCSD Ped2, Shanghai Tech, CUHK Avenueの3つのベンチマークでは, ROC AUCスコアが0.865, 0.745, 0.742であった。
これらの結果は時間的文脈を使わずに達成され、そのようなシステムはリアルタイムアプリケーションで実現可能である。
本モデルでは、エッジ上の監視装置の実装設定、解釈可能性、推論速度を改善し、他のビデオ異常検出システムに対する性能トレードオフを導入する。
オープンソース基盤モデルの一般化能力の向上に伴い,特徴表現のためのテキストの排他的利用が,リアルタイムに解釈可能なビデオ異常検出の有効な方向であることを示す。
関連論文リスト
- Exploring the Magnitude-Shape Plot Framework for Anomaly Detection in Crowded Video Scenes [3.6961981570832374]
本研究では,機能的データ分析フレームワークにおけるビデオ異常検出について検討し,Magnitude-Shape (MS) Plotの適用性に着目した。
オートエンコーダは、異常のないトレーニングデータから通常の行動パターンを学習し、再構成するために使用される。
MS-Plotは、統計的に原則化された、異常検出のための解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-29T05:58:50Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。