論文の概要: From Explicit Rules to Implicit Reasoning in Weakly Supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2410.21991v6
- Date: Sun, 06 Apr 2025 04:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:07:23.874924
- Title: From Explicit Rules to Implicit Reasoning in Weakly Supervised Video Anomaly Detection
- Title(参考訳): 弱教師付きビデオ異常検出における暗黙の規則から暗黙の推論へ
- Authors: Wen-Dong Jiang, Chih-Yung Chang, Ssu-Chi Kuai, Diptendu Sinha Roy,
- Abstract要約: 本稿では,ルールベースビオレンスモニタリング(RuleVM)について紹介する。
RuleVMはデュアルブランチアーキテクチャを採用している: 粗いバイナリ分類に視覚的特徴を使用する暗黙のブランチ、シーンフレームとアクションチャネルに特徴抽出を分割する、そして、きめ細かい分類に言語イメージアライメントを活用する明示的なブランチ。
明示的なブランチは、最先端のYOLO-Worldモデルを使用してビデオフレーム内のオブジェクト検出を行い、関連ルールはビデオディスクリプタとしてデータから抽出される。
- 参考スコア(独自算出の注目度): 1.8274323268621635
- License:
- Abstract: Recent advances in pre-trained models have demonstrated exceptional performance in video anomaly detection (VAD). However, most systems remain black boxes, lacking explainability during training and inference. A key challenge is integrating explicit knowledge into implicit models to create expert-driven, interpretable VAD systems. This paper introduces Rule-based Violence Monitoring (RuleVM), a novel weakly supervised video anomaly detection (WVAD) paradigm. RuleVM employs a dual-branch architecture: an implicit branch using visual features for coarse-grained binary classification, with feature extraction split into scene frames and action channels, and an explicit branch leveraging language-image alignment for fine-grained classification. The explicit branch utilizes the state-of-the-art YOLO-World model for object detection in video frames, with association rules mined from data as video descriptors. This design enables interpretable coarse- and fine-grained violence monitoring. Extensive experiments on two standard benchmarks show RuleVM outperforms state-of-the-art methods in both granularities. Notably, it reveals rules like increased violence risk with crowd size. Demo content is provided in the appendix.
- Abstract(参考訳): 近年,ビデオ異常検出(VAD)の精度が向上している。
しかしながら、ほとんどのシステムはブラックボックスのままであり、トレーニングと推論の間に説明責任が欠如している。
重要な課題は、明示的な知識を暗黙のモデルに統合して、専門家駆動で解釈可能なVADシステムを構築することです。
本稿では,ルールベースビオレンスモニタリング(RuleVM)について紹介する。
RuleVMはデュアルブランチアーキテクチャを採用している: 粗いバイナリ分類に視覚的特徴を使用する暗黙のブランチ、シーンフレームとアクションチャネルに特徴抽出を分割する、そして、きめ細かい分類に言語イメージアライメントを活用する明示的なブランチ。
明示的なブランチは、最先端のYOLO-Worldモデルを使用してビデオフレーム内のオブジェクト検出を行い、関連ルールはビデオディスクリプタとしてデータから抽出される。
この設計は、粗大できめ細かな暴力監視を可能にする。
2つの標準ベンチマークでの大規模な実験では、ルールVMは両方の粒度で最先端のメソッドよりも優れています。
特に、群衆の規模による暴力リスクの増加などのルールを明らかにしている。
デモ内容は付録に記載されている。
関連論文リスト
- Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [2.0179223501624786]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-28T16:24:35Z) - Learning Visual Abstract Reasoning through Dual-Stream Networks [17.821047249498058]
本稿では,Raven's Progressive Matrices (RPM) による課題に対処するニューラルネットワークモデルを提案する。
視覚処理の2ストリーム仮説に触発されて、Dual-stream Reasoning Network(DRNet)を導入する。
2つのストリームの上に、推論モジュールが最初に、同じ画像の高レベルな特徴をマージすることを学ぶ。
論文 参考訳(メタデータ) (2024-11-29T03:25:32Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Unsupervised Learning of Structured Representations via Closed-Loop
Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。
統一表現は、両方を持つことの相互利益を享受できることが示される。
これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文 参考訳(メタデータ) (2022-10-30T09:09:05Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。