論文の概要: From Explicit Rules to Implicit Reasoning in Weakly Supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2410.21991v6
- Date: Sun, 06 Apr 2025 04:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 20:14:38.656566
- Title: From Explicit Rules to Implicit Reasoning in Weakly Supervised Video Anomaly Detection
- Title(参考訳): 弱教師付きビデオ異常検出における暗黙の規則から暗黙の推論へ
- Authors: Wen-Dong Jiang, Chih-Yung Chang, Ssu-Chi Kuai, Diptendu Sinha Roy,
- Abstract要約: 本稿では,ルールベースビオレンスモニタリング(RuleVM)について紹介する。
RuleVMはデュアルブランチアーキテクチャを採用している: 粗いバイナリ分類に視覚的特徴を使用する暗黙のブランチ、シーンフレームとアクションチャネルに特徴抽出を分割する、そして、きめ細かい分類に言語イメージアライメントを活用する明示的なブランチ。
明示的なブランチは、最先端のYOLO-Worldモデルを使用してビデオフレーム内のオブジェクト検出を行い、関連ルールはビデオディスクリプタとしてデータから抽出される。
- 参考スコア(独自算出の注目度): 1.8274323268621635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in pre-trained models have demonstrated exceptional performance in video anomaly detection (VAD). However, most systems remain black boxes, lacking explainability during training and inference. A key challenge is integrating explicit knowledge into implicit models to create expert-driven, interpretable VAD systems. This paper introduces Rule-based Violence Monitoring (RuleVM), a novel weakly supervised video anomaly detection (WVAD) paradigm. RuleVM employs a dual-branch architecture: an implicit branch using visual features for coarse-grained binary classification, with feature extraction split into scene frames and action channels, and an explicit branch leveraging language-image alignment for fine-grained classification. The explicit branch utilizes the state-of-the-art YOLO-World model for object detection in video frames, with association rules mined from data as video descriptors. This design enables interpretable coarse- and fine-grained violence monitoring. Extensive experiments on two standard benchmarks show RuleVM outperforms state-of-the-art methods in both granularities. Notably, it reveals rules like increased violence risk with crowd size. Demo content is provided in the appendix.
- Abstract(参考訳): 近年,ビデオ異常検出(VAD)の精度が向上している。
しかしながら、ほとんどのシステムはブラックボックスのままであり、トレーニングと推論の間に説明責任が欠如している。
重要な課題は、明示的な知識を暗黙のモデルに統合して、専門家駆動で解釈可能なVADシステムを構築することです。
本稿では,ルールベースビオレンスモニタリング(RuleVM)について紹介する。
RuleVMはデュアルブランチアーキテクチャを採用している: 粗いバイナリ分類に視覚的特徴を使用する暗黙のブランチ、シーンフレームとアクションチャネルに特徴抽出を分割する、そして、きめ細かい分類に言語イメージアライメントを活用する明示的なブランチ。
明示的なブランチは、最先端のYOLO-Worldモデルを使用してビデオフレーム内のオブジェクト検出を行い、関連ルールはビデオディスクリプタとしてデータから抽出される。
この設計は、粗大できめ細かな暴力監視を可能にする。
2つの標準ベンチマークでの大規模な実験では、ルールVMは両方の粒度で最先端のメソッドよりも優れています。
特に、群衆の規模による暴力リスクの増加などのルールを明らかにしている。
デモ内容は付録に記載されている。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。
LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised
Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。
セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。
提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文 参考訳(メタデータ) (2023-10-26T17:59:19Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Unsupervised Learning of Structured Representations via Closed-Loop
Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。
統一表現は、両方を持つことの相互利益を享受できることが示される。
これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文 参考訳(メタデータ) (2022-10-30T09:09:05Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。