論文の概要: Generalizable Face Forgery Detection via Separable Prompt Learning
- arxiv url: http://arxiv.org/abs/2604.17307v1
- Date: Sun, 19 Apr 2026 07:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.453488
- Title: Generalizable Face Forgery Detection via Separable Prompt Learning
- Title(参考訳): 分離型プロンプト学習による一般化可能な顔偽造検出
- Authors: Enrui Yang, Yuezun Li,
- Abstract要約: 筆者らは,CLIPを顔偽造検知器として有効に機能させることができる,SePL(Separable Prompt Learning Strategy)を提案する。
この不整合を達成するために,モダリティ間のアライメント戦略と専用目的のセットについて述べる。
本手法は, クロスデータセットおよびクロスメソッド評価において, 他の手法と比較して, 競争力や性能に優れる。
- 参考スコア(独自算出の注目度): 9.467877750964588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting face forgeries using CLIP has recently emerged as a promising and increasingly popular research direction. Owing to its rich visual knowledge acquired through large-scale pretraining, most existing methods typically rely on the visual encoder of CLIP, while paying limited attention to the text modality. Given the instructive nature of the text modality, we posit that it can be leveraged to instruct Deepfake detection with meticulous design. Accordingly, we shift the focus from the visual modality to the text modality and propose a new Separable Prompt Learning strategy (SePL) that enables CLIP to serve as an effective face forgery detector. The core idea of SePL is to disentangle forgery-specific and forgery-irrelevant information in images via two types of prompt learning, with the former enhancing detection. To achieve this disentangle, we describe a cross-modality alignment strategy and a set of dedicated objectives. Extensive experiments demonstrate that, with this simple adaptation, our method achieves competitive and even superior performance compared to other methods under both cross-dataset and cross-method evaluation, highlighting its strong generalizability. The codes have been released at https://github.com/OUC-YER/SePL-DeepfakeDetection
- Abstract(参考訳): CLIPを使った顔偽造者の検出は、近ごろ、有望で人気の高い研究方向として浮上した。
大規模な事前学習によって得られる豊富な視覚知識のため、既存のほとんどの手法は典型的にはCLIPのビジュアルエンコーダに依存し、テキストのモダリティに限られた注意を払っている。
テキストモダリティのインストラクティブな性質を考慮すると、Deepfake検出を巧妙な設計で指示することができると仮定する。
そこで我々は、視覚的モダリティからテキストモダリティへと焦点を移し、CLIPが効果的な顔偽造検知器として機能することのできる、新たなセパブル・プロンプト・ラーニング戦略(SePL)を提案する。
SePLの中核となる考え方は、2種類のプロンプト学習を通じて画像中の偽情報と偽情報とをアンタングル化し、前者による検出を増強することである。
この不整合を達成するために,モダリティ間のアライメント戦略と専用目的のセットについて述べる。
大規模な実験により,本手法は, クロスデータセットおよびクロスメソッド評価において, 競合的かつ優れた性能を達成し, その強い一般化性を強調した。
コードはhttps://github.com/OUC-YER/SePL-DeepfakeDetectionでリリースされた。
関連論文リスト
- Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [71.60120616284246]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。
実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-06T15:09:23Z) - Unlocking the Hidden Potential of CLIP in Generalizable Deepfake Detection [23.48106270102081]
本稿では,顔の深部を部分的に操作して検出する課題に対処する。
我々は、Contrastive Language-Image Pre-Training(CLIP)モデル、特にViT-L/14ビジュアルエンコーダを利用する。
提案手法は,LNチューニングなどのPEFT技術を用いて,モデルのパラメータの小さな部分集合を調整する。
論文 参考訳(メタデータ) (2025-03-25T14:10:54Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。