論文の概要: C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection
- arxiv url: http://arxiv.org/abs/2408.09647v1
- Date: Mon, 19 Aug 2024 02:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:53:49.661662
- Title: C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection
- Title(参考訳): C2P-CLIP:CLIPのカテゴリー共通プロンプト注入によるディープフェイク検出の一般化
- Authors: Chuangchuang Tan, Renshuai Tao, Huan Liu, Guanghua Gu, Baoyuan Wu, Yao Zhao, Yunchao Wei,
- Abstract要約: 本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
- 参考スコア(独自算出の注目度): 98.34703790782254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on AIGC detection to develop universal detectors capable of identifying various types of forgery images. Recent studies have found large pre-trained models, such as CLIP, are effective for generalizable deepfake detection along with linear classifiers. However, two critical issues remain unresolved: 1) understanding why CLIP features are effective on deepfake detection through a linear classifier; and 2) exploring the detection potential of CLIP. In this study, we delve into the underlying mechanisms of CLIP's detection capabilities by decoding its detection features into text and performing word frequency analysis. Our finding indicates that CLIP detects deepfakes by recognizing similar concepts (Fig. \ref{fig:fig1} a). Building on this insight, we introduce Category Common Prompt CLIP, called C2P-CLIP, which integrates the category common prompt into the text encoder to inject category-related concepts into the image encoder, thereby enhancing detection performance (Fig. \ref{fig:fig1} b). Our method achieves a 12.41\% improvement in detection accuracy compared to the original CLIP, without introducing additional parameters during testing. Comprehensive experiments conducted on two widely-used datasets, encompassing 20 generation models, validate the efficacy of the proposed method, demonstrating state-of-the-art performance. The code is available at \url{https://github.com/chuangchuangtan/C2P-CLIP-DeepfakeDetection}
- Abstract(参考訳): この研究はAIGC検出に焦点を当て、様々な種類の偽画像を識別できるユニバーサル検出器を開発する。
近年の研究では、CLIPのような大規模事前学習モデルが、線形分類器とともに一般化可能なディープフェイク検出に有効であることが報告されている。
しかし、2つの重大な問題は未解決のままである。
1) 線形分類器による深度検出にCLIPが有効である理由の理解
2)CLIPの検出の可能性を探る。
本研究では,検出機能をテキストに復号し,単語頻度分析を行うことにより,CLIPの検出能力の基盤となるメカニズムを探索する。
以上の結果から,CLIPは類似した概念を認識することでディープフェイクを検出することが示唆された(図)。
\ref{fig:fig1}
A)。
この知見に基づいて、カテゴリ共通プロンプトCLIP(C2P-CLIP)を導入し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念を画像エンコーダに注入し、検出性能を向上させる(図)。
\ref{fig:fig1}
b)。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度を12.41倍に向上させる。
20世代モデルを含む2つの広く利用されているデータセットで実施された総合実験により,提案手法の有効性が検証され,最先端の性能が実証された。
コードは \url{https://github.com/chuangchuangtan/C2P-CLIP-DeepfakeDetection} で公開されている。
関連論文リスト
- Unseen No More: Unlocking the Potential of CLIP for Generative Zero-shot HOI Detection [6.4348035950413]
HOIGENと呼ばれるゼロショットHOI検出のためのCLIPを用いた第1世代モデルを提案する。
CLIPを注入した特徴発生器を人・物・組合の特徴の生成に応じて開発する。
HOIスコアを豊かにするために、ペアワイズHOI認識ブランチに生成プロトタイプバンクを構築し、画像ワイズHOI認識ブランチにマルチ知識プロトタイプバンクを構築した。
論文 参考訳(メタデータ) (2024-08-12T08:02:37Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。