Fugu-MT 論文翻訳(概要): VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

論文の概要: VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2308.11681v2
Date: Fri, 25 Aug 2023 06:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 16:34:14.030071
Title: VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection
Title（参考訳）: VadCLIP:弱教師付きビデオ異常検出のための視覚言語モデルへの適応
Authors: Peng Wu, Xuerong Zhou, Guansong Pang, Lingru Zhou, Qingsen Yan, Peng Wang, Yanning Zhang
Abstract要約: 弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
参考スコア（独自算出の注目度）: 58.47940430618352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent contrastive language-image pre-training (CLIP) model has shown great success in a wide range of image-level tasks, revealing remarkable ability for learning powerful visual representations with rich semantics. An open and worthwhile problem is efficiently adapting such a strong model to the video domain and designing a robust video anomaly detector. In this work, we propose VadCLIP, a new paradigm for weakly supervised video anomaly detection (WSVAD) by leveraging the frozen CLIP model directly without any pre-training and fine-tuning process. Unlike current works that directly feed extracted features into the weakly supervised classifier for frame-level binary classification, VadCLIP makes full use of fine-grained associations between vision and language on the strength of CLIP and involves dual branch. One branch simply utilizes visual features for coarse-grained binary classification, while the other fully leverages the fine-grained language-image alignment. With the benefit of dual branch, VadCLIP achieves both coarse-grained and fine-grained video anomaly detection by transferring pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best performance on both coarse-grained and fine-grained WSVAD, surpassing the state-of-the-art methods by a large margin. Specifically, VadCLIP achieves 84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and features will be released to facilitate future VAD research.
Abstract（参考訳）: 最近のコントラスト言語画像事前学習(CLIP)モデルは、幅広い画像レベルのタスクで大きな成功を収めており、リッチなセマンティクスで強力な視覚表現を学習する驚くべき能力を示している。オープンで価値のある問題は、そのような強力なモデルをビデオ領域に効率的に適応させ、堅牢なビデオ異常検知器を設計することである。本研究では,凍結したCLIPモデルを事前学習や微調整を行うことなく直接利用することにより,弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。フレームレベルのバイナリ分類のための弱い教師付き分類器に抽出された特徴を直接供給する現在の作業とは異なり、VadCLIPはCLIPの強度で視覚と言語の間のきめ細かい関連をフル活用し、二重分岐を伴う。 1つのブランチは、粗粒度のバイナリ分類に視覚的特徴を単純に利用し、もう1つは細粒度の言語イメージアライメントを完全に活用する。二重分岐の利点により、VadCLIPはCLIPからWSVADタスクに事前学習した知識を転送することで、粗粒度と細粒度の両方の動画異常検出を実現する。我々は2つの一般的なベンチマーク実験を行い、VadCLIPが粗粒度と細粒度の両方で最高の性能を達成し、最先端の手法を大きなマージンで上回っていることを示す。具体的には、VadCLIPは84.51%APと88.02%AUCをそれぞれXD-ViolenceとUCF-Crimeで達成している。コードと機能がリリースされ、将来のvad研究が促進される。

関連論文リスト

CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [17.05291662808873]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文参考訳（メタデータ） (2025-08-04T11:57:10Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。 DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-12-10T02:21:39Z)
Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文参考訳（メタデータ） (2024-10-07T17:59:59Z)
Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。 CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:00:09Z)
CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文参考訳（メタデータ） (2023-03-06T09:17:47Z)
Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)
How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文参考訳（メタデータ） (2021-07-13T20:48:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。