論文の概要: VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2308.11681v2
- Date: Fri, 25 Aug 2023 06:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:34:14.030071
- Title: VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection
- Title(参考訳): VadCLIP:弱教師付きビデオ異常検出のための視覚言語モデルへの適応
- Authors: Peng Wu, Xuerong Zhou, Guansong Pang, Lingru Zhou, Qingsen Yan, Peng
Wang, Yanning Zhang
- Abstract要約: 弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 58.47940430618352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent contrastive language-image pre-training (CLIP) model has shown
great success in a wide range of image-level tasks, revealing remarkable
ability for learning powerful visual representations with rich semantics. An
open and worthwhile problem is efficiently adapting such a strong model to the
video domain and designing a robust video anomaly detector. In this work, we
propose VadCLIP, a new paradigm for weakly supervised video anomaly detection
(WSVAD) by leveraging the frozen CLIP model directly without any pre-training
and fine-tuning process. Unlike current works that directly feed extracted
features into the weakly supervised classifier for frame-level binary
classification, VadCLIP makes full use of fine-grained associations between
vision and language on the strength of CLIP and involves dual branch. One
branch simply utilizes visual features for coarse-grained binary
classification, while the other fully leverages the fine-grained language-image
alignment. With the benefit of dual branch, VadCLIP achieves both
coarse-grained and fine-grained video anomaly detection by transferring
pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments
on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best
performance on both coarse-grained and fine-grained WSVAD, surpassing the
state-of-the-art methods by a large margin. Specifically, VadCLIP achieves
84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and
features will be released to facilitate future VAD research.
- Abstract(参考訳): 最近のコントラスト言語画像事前学習(CLIP)モデルは、幅広い画像レベルのタスクで大きな成功を収めており、リッチなセマンティクスで強力な視覚表現を学習する驚くべき能力を示している。
オープンで価値のある問題は、そのような強力なモデルをビデオ領域に効率的に適応させ、堅牢なビデオ異常検知器を設計することである。
本研究では,凍結したCLIPモデルを事前学習や微調整を行うことなく直接利用することにより,弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
フレームレベルのバイナリ分類のための弱い教師付き分類器に抽出された特徴を直接供給する現在の作業とは異なり、VadCLIPはCLIPの強度で視覚と言語の間のきめ細かい関連をフル活用し、二重分岐を伴う。
1つのブランチは、粗粒度のバイナリ分類に視覚的特徴を単純に利用し、もう1つは細粒度の言語イメージアライメントを完全に活用する。
二重分岐の利点により、VadCLIPはCLIPからWSVADタスクに事前学習した知識を転送することで、粗粒度と細粒度の両方の動画異常検出を実現する。
我々は2つの一般的なベンチマーク実験を行い、VadCLIPが粗粒度と細粒度の両方で最高の性能を達成し、最先端の手法を大きなマージンで上回っていることを示す。
具体的には、VadCLIPは84.51%APと88.02%AUCをそれぞれXD-ViolenceとUCF-Crimeで達成している。
コードと機能がリリースされ、将来のvad研究が促進される。
関連論文リスト
- Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。
おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。