論文の概要: Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2411.19715v1
- Date: Fri, 29 Nov 2024 14:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:28.083048
- Title: Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection
- Title(参考訳): Forensics Adapter: Generalizable Face Forgery DetectionにCLIPを適用する
- Authors: Xinjie Cui, Yuezun Li, Ao Luo, Jiaran Zhou, Junyu Dong,
- Abstract要約: ここでは,CLIPを有効かつ一般化可能な顔偽造検知器に変換するためのアダプタネットワークについて述べる。
トレーニング可能なパラメータはたったの$bm5.7M($bm5.7M)である。
- 参考スコア(独自算出の注目度): 35.055076102193624
- License:
- Abstract: We describe the Forensics Adapter, an adapter network designed to transform CLIP into an effective and generalizable face forgery detector. Although CLIP is highly versatile, adapting it for face forgery detection is non-trivial as forgery-related knowledge is entangled with a wide range of unrelated knowledge. Existing methods treat CLIP merely as a feature extractor, lacking task-specific adaptation, which limits their effectiveness. To address this, we introduce an adapter to learn face forgery traces -- the blending boundaries unique to forged faces, guided by task-specific objectives. Then we enhance the CLIP visual tokens with a dedicated interaction strategy that communicates knowledge across CLIP and the adapter. Since the adapter is alongside CLIP, its versatility is highly retained, naturally ensuring strong generalizability in face forgery detection. With only $\bm{5.7M}$ trainable parameters, our method achieves a significant performance boost, improving by approximately $\bm{7\%}$ on average across five standard datasets. We believe the proposed method can serve as a baseline for future CLIP-based face forgery detection methods.
- Abstract(参考訳): 本稿では、CLIPを効果的かつ一般化可能な顔偽造検知器に変換するためのアダプタネットワークであるForensics Adapterについて述べる。
CLIPは非常に汎用性が高いが、顔偽造検出に適応することは、偽造関連知識が幅広い無関係な知識と絡み合っているため、自明ではない。
既存の方法は、CLIPを単に機能抽出器として扱うだけで、タスク固有の適応が欠如しており、その効果が制限されている。
これを解決するために、タスク固有の目的によってガイドされた、偽の顔に固有のブレンディング境界である、偽の痕跡を学習するためのアダプタを導入します。
次に、CLIPとアダプタ間の知識を伝達する専用のインタラクション戦略により、CLIP視覚トークンを強化します。
アダプタはCLIPと並んでいるため、その汎用性は高く保たれており、顔偽造検出の強い一般化性が保証されている。
トレーニング可能なパラメータは$\bm{5.7M}$だけで、我々の手法は5つの標準データセットの平均で約$\bm{7\%}$に改善され、大幅なパフォーマンス向上を達成する。
提案手法は,将来のCLIPベースの顔偽造検出手法のベースラインとして機能すると考えられる。
関連論文リスト
- Generalizable Facial Expression Recognition [41.639746139849564]
SOTA顔表情認識(FER)メソッドは、列車セットとドメインギャップのあるテストセットで失敗する。
最近の領域適応FER法は、ferモデルを微調整するために、ターゲットドメインのラベル付きまたは未ラベルのサンプルを取得する必要がある。
本稿では,1つの列車セットのみを用いて,異なる未確認テストセット上でのFER法のゼロショット一般化能力を改善することを目的とする。
論文 参考訳(メタデータ) (2024-08-20T07:48:45Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - Face Presentation Attack Detection using Taskonomy Feature [26.343512092423985]
顔認識システム(FRS)の安全性を確保するため、提示攻撃検出(PAD)手法が重要である
既存のPAD法は、限られたトレーニングセットに大きく依存しており、未知のPAによく当てはまらない。
我々は、他の顔関連タスクからタスクノミー(タスク分類)を適用して、顔PADを解決することを提案する。
論文 参考訳(メタデータ) (2021-11-22T08:35:26Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z) - BioMetricNet: deep unconstrained face verification through learning of
metrics regularized onto Gaussian distributions [25.00475462213752]
深層非拘束顔認証のための新しいフレームワークであるBioMetricNetを提案する。
提案手法では、顔の特徴について具体的な指標を課していない。
マッチングと非マッチングのペアを、明確に分離された、よく定義されたターゲット分布にマッピングする潜在表現を学習することで、決定空間を形成する。
論文 参考訳(メタデータ) (2020-08-13T17:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。