論文の概要: Guided and Fused: Efficient Frozen CLIP-ViT with Feature Guidance and Multi-Stage Feature Fusion for Generalizable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2408.13697v1
- Date: Sun, 25 Aug 2024 01:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:19:53.047192
- Title: Guided and Fused: Efficient Frozen CLIP-ViT with Feature Guidance and Multi-Stage Feature Fusion for Generalizable Deepfake Detection
- Title(参考訳): 凍結型CLIP-ViTの高機能化と多段機能融合による一般深度検出
- Authors: Yingjian Chen, Lei Zhang, Yakun Niu, Pei Chen, Lei Tan, Jing Zhou,
- Abstract要約: ディープフェイク検出のための効率的なガイド付き冷凍冷凍CLIP-ViT(GFF)を提案する。
DFGMは、ディープフェイク検出に特化した特徴を抽出するために、凍結事前訓練されたモデルをガイドする。
FuseFormerは、ViTの各ステージから抽出された特徴を融合することにより、低レベルおよび高レベル情報をキャプチャする。
- 参考スコア(独自算出の注目度): 19.859414426897164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of generative models has sparked concerns about image authenticity online, highlighting the urgent need for an effective and general detector. Recent methods leveraging the frozen pre-trained CLIP-ViT model have made great progress in deepfake detection. However, these models often rely on visual-general features directly extracted by the frozen network, which contain excessive information irrelevant to the task, resulting in limited detection performance. To address this limitation, in this paper, we propose an efficient Guided and Fused Frozen CLIP-ViT (GFF), which integrates two simple yet effective modules. The Deepfake-Specific Feature Guidance Module (DFGM) guides the frozen pre-trained model in extracting features specifically for deepfake detection, reducing irrelevant information while preserving its generalization capabilities. The Multi-Stage Fusion Module (FuseFormer) captures low-level and high-level information by fusing features extracted from each stage of the ViT. This dual-module approach significantly improves deepfake detection by fully leveraging CLIP-ViT's inherent advantages. Extensive experiments demonstrate the effectiveness and generalization ability of GFF, which achieves state-of-the-art performance with optimal results in only 5 training epochs. Even when trained on only 4 classes of ProGAN, GFF achieves nearly 99% accuracy on unseen GANs and maintains an impressive 97% accuracy on unseen diffusion models.
- Abstract(参考訳): 生成モデルの台頭は、画像の信頼性に関する懸念をオンライン上で引き起こし、効果的で一般的な検出器の緊急性の必要性を浮き彫りにした。
冷凍前訓練CLIP-ViTモデルを利用した最近の手法はディープフェイク検出に大きな進歩をもたらした。
しかしながら、これらのモデルは、タスクに関係なく過剰な情報を含む凍結ネットワークによって直接抽出される視覚的一般性に依存し、検出性能が制限されることが多い。
この制限に対処するため,本論文では,2つの単純かつ効果的なモジュールを統合した,効率的なガイド付き凍結型CLIP-ViT(GFF)を提案する。
Deepfake-Specific Feature Guidance Module (DFGM)は、凍結した事前訓練されたモデルをガイドし、ディープフェイク検出に特有な機能を抽出し、その一般化能力を保ちながら無関係な情報を減らす。
Multi-Stage Fusion Module (FuseFormer)は、ViTの各ステージから抽出された特徴を融合することにより、低レベルおよび高レベル情報をキャプチャする。
このデュアルモジュールアプローチは、CLIP-ViT固有の利点を完全に活用することで、ディープフェイク検出を大幅に改善する。
GFFの有効性と一般化能力は,5つの訓練エポックで最適結果を得ることができた。
ProGANの4つのクラスでトレーニングしても、GFFは未確認のGANで99%の精度を達成し、未確認の拡散モデルでは97%の精度を維持している。
関連論文リスト
- $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images [15.12889076965307]
YOLOv7ワンステージ検出器は、新しいメタラーニングトレーニングフレームワークが組み込まれている。
この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。
提案検出器の有効性を検証するため, 現状の検出器と性能比較を行った。
論文 参考訳(メタデータ) (2024-04-29T04:56:52Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model [15.61920157541529]
内部にリッチな情報をエンコードしたファンデーションモデルを適用することにより,新しいディープフェイク検出手法を提案する。
近年のパラメータ効率の良い微調整技術に触発されて,新しいサイドネットワーク型デコーダを提案する。
提案手法は,見知らぬディープフェイクサンプルの同定に優れた有効性を示し,顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2024-04-08T14:58:52Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection [73.66077273888018]
既存のディープフェイク検出方法は、目に見えない、または劣化したサンプルに対してうまく一般化できない。
高レベルのセマンティクスは、一般化可能な偽造検出に必要なレシピである。
DeepFake-Adapterは、DeepFake検出のためのパラメータ効率の高い最初のチューニング手法である。
論文 参考訳(メタデータ) (2023-06-01T16:23:22Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。