論文の概要: CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised
Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2212.05136v2
- Date: Fri, 5 May 2023 19:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:49:07.423531
- Title: CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised
Video Anomaly Detection
- Title(参考訳): clip-tsa: 弱教師付きビデオ異常検出のためのクリップ支援時間的セルフアテンション
- Authors: Hyekang Kevin Joo, Khoa Vo, Kashu Yamazaki, Ngan Le
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ監視において、異常のフレームをトリミングされていないビデオにローカライズする必要がある難しい問題である。
本稿ではまず,従来のC3DやI3Dと対照的に,CLIPの視覚的特徴をViTで符号化する手法を提案する。
次に,長期・短期の時間的依存関係をモデル化し,提案した時間的自己意識を活用して関心のスニペットを列挙する。
- 参考スコア(独自算出の注目度): 3.146076597280736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) -- commonly formulated as a multiple-instance
learning problem in a weakly-supervised manner due to its labor-intensive
nature -- is a challenging problem in video surveillance where the frames of
anomaly need to be localized in an untrimmed video. In this paper, we first
propose to utilize the ViT-encoded visual features from CLIP, in contrast with
the conventional C3D or I3D features in the domain, to efficiently extract
discriminative representations in the novel technique. We then model long- and
short-range temporal dependencies and nominate the snippets of interest by
leveraging our proposed Temporal Self-Attention (TSA). The ablation study
conducted on each component confirms its effectiveness in the problem, and the
extensive experiments show that our proposed CLIP-TSA outperforms the existing
state-of-the-art (SOTA) methods by a large margin on two commonly-used
benchmark datasets in the VAD problem (UCF-Crime and ShanghaiTech Campus). The
source code will be made publicly available upon acceptance.
- Abstract(参考訳): ビデオ異常検出(VAD: Video Anomaly Detection) - 労働集約性による弱い監督によるマルチインスタンス学習問題として一般的に定式化されている - は、ビデオ監視において、異常のフレームを非トリミングビデオにローカライズする必要があるという課題である。
本稿ではまず,従来のC3DやI3Dとは異なり,CLIPの視覚的特徴をViTで符号化し,その特徴を効果的に抽出する手法を提案する。
次に,時間的依存関係と短距離依存関係をモデル化し,提案した時間的自己意識(TSA)を利用して関心の断片を列挙する。
実験の結果,提案したCLIP-TSA法は,VAD問題(UCF-CrimeとShanghaiTech Campus)における2つの一般的なベンチマークデータセットに対して,既存のSOTA法よりも高い性能を示した。
ソースコードは受理次第公開される予定だ。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - TeD-SPAD: Temporal Distinctiveness for Self-supervised
Privacy-preservation for video Anomaly Detection [59.04634695294402]
人間の監視のないビデオ異常検出(VAD)は複雑なコンピュータビジョンタスクである。
VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができる。
本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。
論文 参考訳(メタデータ) (2023-08-21T22:42:55Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - 3D ResNet with Ranking Loss Function for Abnormal Activity Detection in
Videos [6.692686655277163]
この研究は、最近の異常な活動検出の最先端の研究に動機づけられている。
時間的アノテーションがない場合、そのようなモデルは異常を検出しながら誤報をしがちである。
本稿では,異常行動検出タスクを実行しながら,誤警報率を最小化するタスクに焦点をあてる。
論文 参考訳(メタデータ) (2020-02-04T05:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。