Fugu-MT 論文翻訳(概要): CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection

論文の概要: CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2212.05136v3
Date: Mon, 3 Jul 2023 23:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 23:24:24.185858
Title: CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection
Title（参考訳）: clip-tsa: 弱教師付きビデオ異常検出のためのクリップ支援時間的セルフアテンション
Authors: Hyekang Kevin Joo, Khoa Vo, Kashu Yamazaki, Ngan Le
Abstract要約: ビデオ異常検出(VAD)は、ビデオ監視において、異常のフレームをトリミングされていないビデオにローカライズする必要がある難しい問題である。筆者らはまず,従来のC3DやI3Dと対照的に,CLIPの視覚的特徴をViTエンコードすることで,新しい手法の識別表現を効率的に抽出することを提案する。提案したCLIP-TSAは、VAD問題における3つの一般的なベンチマークデータセットに対して、既存の最先端(SOTA)メソッドよりも大きなマージンで優れている。
参考スコア（独自算出の注目度）: 3.146076597280736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) -- commonly formulated as a multiple-instance learning problem in a weakly-supervised manner due to its labor-intensive nature -- is a challenging problem in video surveillance where the frames of anomaly need to be localized in an untrimmed video. In this paper, we first propose to utilize the ViT-encoded visual features from CLIP, in contrast with the conventional C3D or I3D features in the domain, to efficiently extract discriminative representations in the novel technique. We then model temporal dependencies and nominate the snippets of interest by leveraging our proposed Temporal Self-Attention (TSA). The ablation study confirms the effectiveness of TSA and ViT feature. The extensive experiments show that our proposed CLIP-TSA outperforms the existing state-of-the-art (SOTA) methods by a large margin on three commonly-used benchmark datasets in the VAD problem (UCF-Crime, ShanghaiTech Campus, and XD-Violence). Our source code is available at https://github.com/joos2010kj/CLIP-TSA.
Abstract（参考訳）: ビデオ異常検出(VAD: Video Anomaly Detection) - 労働集約性による弱い監督によるマルチインスタンス学習問題として一般的に定式化されている - は、ビデオ監視において、異常のフレームを非トリミングビデオにローカライズする必要があるという課題である。本稿ではまず,従来のC3DやI3Dとは異なり,CLIPの視覚的特徴をViTで符号化し,その特徴を効果的に抽出する手法を提案する。次に,時間依存をモデル化し,提案する時間的自己着想(tsa)を活用し,関心のスニペットを付与する。アブレーション試験では, TSAとViTの有用性が確認された。提案したCLIP-TSAは、VAD問題(UCF-Crime, ShanghaiTech Campus, XD-Violence)における3つの一般的なベンチマークデータセットに対して、既存の最先端(SOTA)手法よりも高い性能を示した。ソースコードはhttps://github.com/joos2010kj/CLIP-TSAで公開されています。

関連論文リスト

AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。 AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文参考訳（メタデータ） (2025-03-27T18:30:47Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。複数のバックボーンの集約表現から1つのバックボーンモデルへの知識の蒸留が,最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-06-05T00:44:42Z)
Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文参考訳（メタデータ） (2023-12-04T09:40:11Z)
Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文参考訳（メタデータ） (2023-10-04T14:01:55Z)
TeD-SPAD: Temporal Distinctiveness for Self-supervised Privacy-preservation for video Anomaly Detection [59.04634695294402]
人間の監視のないビデオ異常検出(VAD)は複雑なコンピュータビジョンタスクである。 VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができる。本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。
論文参考訳（メタデータ） (2023-08-21T22:42:55Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。我々のモデルは最先端の代替品を著しく上回っている。我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文参考訳（メタデータ） (2022-07-17T13:59:46Z)
Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文参考訳（メタデータ） (2021-08-24T12:52:47Z)
Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文参考訳（メタデータ） (2020-11-15T10:21:28Z)
3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos [6.692686655277163]
この研究は、最近の異常な活動検出の最先端の研究に動機づけられている。時間的アノテーションがない場合、そのようなモデルは異常を検出しながら誤報をしがちである。本稿では,異常行動検出タスクを実行しながら,誤警報率を最小化するタスクに焦点をあてる。
論文参考訳（メタデータ） (2020-02-04T05:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。