論文の概要: Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment
- arxiv url: http://arxiv.org/abs/2511.10334v1
- Date: Fri, 14 Nov 2025 01:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.818606
- Title: Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment
- Title(参考訳): アンタングル付きセマンティックアライメントによる映像異常検出の弱さ
- Authors: Wenti Yin, Huaxin Zhang, Xiang Wang, Yuqing Lu, Yicheng Zhang, Bingquan Gong, Jialong Zuo, Li Yu, Changxin Gao, Nong Sang,
- Abstract要約: 本稿では,不規則な特徴と正常な特徴を粗粒度と細粒度から明確に分離する,DSANet(Disentangled Semantic Alignment Network)を提案する。
粗粒度レベルでは,学習された正規プロトタイプの指導のもと,入力映像の特徴を再構成する自己誘導正規性モデリングブランチを導入する。
詳細なレベルでは、まず、各動画をイベント中心およびバックグラウンド中心のコンポーネントに分解する、分離されたコントラスト的セマンティックアライメント機構を示す。
- 参考スコア(独自算出の注目度): 47.507511439028754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in weakly-supervised video anomaly detection have achieved remarkable performance by applying the multiple instance learning paradigm based on multimodal foundation models such as CLIP to highlight anomalous instances and classify categories. However, their objectives may tend to detect the most salient response segments, while neglecting to mine diverse normal patterns separated from anomalies, and are prone to category confusion due to similar appearance, leading to unsatisfactory fine-grained classification results. Therefore, we propose a novel Disentangled Semantic Alignment Network (DSANet) to explicitly separate abnormal and normal features from coarse-grained and fine-grained aspects, enhancing the distinguishability. Specifically, at the coarse-grained level, we introduce a self-guided normality modeling branch that reconstructs input video features under the guidance of learned normal prototypes, encouraging the model to exploit normality cues inherent in the video, thereby improving the temporal separation of normal patterns and anomalous events. At the fine-grained level, we present a decoupled contrastive semantic alignment mechanism, which first temporally decomposes each video into event-centric and background-centric components using frame-level anomaly scores and then applies visual-language contrastive learning to enhance class-discriminative representations. Comprehensive experiments on two standard benchmarks, namely XD-Violence and UCF-Crime, demonstrate that DSANet outperforms existing state-of-the-art methods.
- Abstract(参考訳): 近年,CLIPなどのマルチモーダル基盤モデルに基づく複数インスタンス学習パラダイムを適用して,異常なインスタンスの強調やカテゴリの分類を行うなど,ビデオ異常検出の弱さが目覚ましい成果を上げている。
しかしながら、それらの目的は、異常から分離された様々な正常パターンをマイニングすることを無視しながら、最も健全な応答セグメントを検出する傾向があり、類似した外観のためにカテゴリー混乱が生じ、不満足な粒度の分類結果をもたらす。
そこで本稿では,DSANet(Disentangled Semantic Alignment Network)を提案する。
具体的には、粗粒度レベルでは、学習された正規プロトタイプの指導のもと、入力ビデオの特徴を再構成する自己誘導正規性モデリングブランチを導入し、ビデオに固有の正規性キューを活用することを奨励し、通常のパターンと異常事象の時間的分離を改善する。
より詳細なレベルでは、まず、フレームレベルの異常スコアを用いて各動画を事象中心および背景中心のコンポーネントに分解し、次に視覚的コントラスト学習を適用して、クラス識別表現を強化する、分離されたコントラスト的セマンティックアライメント機構を提案する。
XD-Violence と UCF-Crime という2つの標準ベンチマークに関する総合的な実験は、DSANet が既存の最先端手法よりも優れていることを示した。
関連論文リスト
- CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos [40.63347505454772]
Video Anomaly Detection (VAD) は、ビデオ理解コミュニティの基本的な課題であり続けている。
従来の手法では、通常の時空間パターン固有の正規性を教師なしの方法でモデル化するために、簡単に収集された通常のイベントのみを使用する。
本研究では,教師なしビデオ正規化学習における因果変数の暗黙的なマイニングを行うために,因果一貫性表現学習(CRCL)を提案する。
論文 参考訳(メタデータ) (2025-03-24T15:50:19Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Updated version: A Video Anomaly Detection Framework based on
Appearance-Motion Semantics Representation Consistency [2.395616571632115]
本稿では,出現動作のセマンティックス一貫性表現の枠組みを提案する。
この2ストリーム構造は、通常のサンプルの外観および動き情報表現を符号化するように設計されている。
特徴セマンティクスの整合性を高めるために、一貫性の低い異常を識別できるように、新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:28:34Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。