論文の概要: FakeFormer: Efficient Vulnerability-Driven Transformers for Generalisable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2410.21964v2
- Date: Mon, 25 Nov 2024 13:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:14.311810
- Title: FakeFormer: Efficient Vulnerability-Driven Transformers for Generalisable Deepfake Detection
- Title(参考訳): FakeFormer: 汎用的なディープフェイク検出のための効率的な脆弱性駆動型トランス
- Authors: Dat Nguyen, Marcella Astrid, Enjie Ghorbel, Djamila Aouada,
- Abstract要約: 本稿では,視覚変換器(ViT)が顔面偽造検出に最適である理由について検討する。
本稿では, 微妙な不整合情報を抽出するためにViTを拡張したFakeFormerというディープフェイク検出フレームワークを提案する。
FF++、Celeb-DF、WildDeepfake、DFD、DFDCP、DFDCなど、さまざまな有名なデータセットで実験が行われている。
- 参考スコア(独自算出の注目度): 12.594436202557446
- License:
- Abstract: Recently, Vision Transformers (ViTs) have achieved unprecedented effectiveness in the general domain of image classification. Nonetheless, these models remain underexplored in the field of deepfake detection, given their lower performance as compared to Convolution Neural Networks (CNNs) in that specific context. In this paper, we start by investigating why plain ViT architectures exhibit a suboptimal performance when dealing with the detection of facial forgeries. Our analysis reveals that, as compared to CNNs, ViT struggles to model localized forgery artifacts that typically characterize deepfakes. Based on this observation, we propose a deepfake detection framework called FakeFormer, which extends ViTs to enforce the extraction of subtle inconsistency-prone information. For that purpose, an explicit attention learning guided by artifact-vulnerable patches and tailored to ViTs is introduced. Extensive experiments are conducted on diverse well-known datasets, including FF++, Celeb-DF, WildDeepfake, DFD, DFDCP, and DFDC. The results show that FakeFormer outperforms the state-of-the-art in terms of generalization and computational cost, without the need for large-scale training datasets. The code is available at \url{https://github.com/10Ring/FakeFormer}.
- Abstract(参考訳): 近年,視覚変換器 (ViT) は画像分類の一般領域において前例のない有効性を実現している。
それでも、これらのモデルは、特定のコンテキストにおける畳み込みニューラルネットワーク(CNN)と比較してパフォーマンスが低いことを考えると、ディープフェイク検出の分野ではまだ過小評価されている。
本稿では,顔の偽造検出に際し,平易なViTアーキテクチャが最適な性能を示す理由を考察することから始める。
我々の分析によると、ViTはCNNと比較して、ディープフェイクを特徴付ける局所的な偽造品をモデル化するのに苦労している。
そこで本研究では, 微妙な不整合情報を抽出するためにViTを拡張したFakeFormerというディープフェイク検出フレームワークを提案する。
その目的のために、人工的なパッチでガイドされ、ViTに合わせて調整された明示的な注意学習が導入された。
FF++、Celeb-DF、WildDeepfake、DFD、DFDCP、DFDCなど、さまざまな有名なデータセットで大規模な実験が行われている。
その結果、FakeFormerは、大規模なトレーニングデータセットを必要とせずに、一般化と計算コストの観点から最先端のパフォーマンスを誇っていることがわかった。
コードは \url{https://github.com/10Ring/FakeFormer} で公開されている。
関連論文リスト
- Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors [24.78672820633581]
深層生成モデルは、偽情報や著作権侵害に対する懸念を高めながら、驚くほど偽のイメージを作成することができる。
実画像と偽画像とを区別するためにディープフェイク検出技術が開発された。
本稿では,視覚言語モデルとアクシデントチューニング技術を用いて,Antifake Promptと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T14:23:45Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection [73.66077273888018]
既存のディープフェイク検出方法は、目に見えない、または劣化したサンプルに対してうまく一般化できない。
高レベルのセマンティクスは、一般化可能な偽造検出に必要なレシピである。
DeepFake-Adapterは、DeepFake検出のためのパラメータ効率の高い最初のチューニング手法である。
論文 参考訳(メタデータ) (2023-06-01T16:23:22Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Metamorphic Testing-based Adversarial Attack to Fool Deepfake Detectors [2.0649235321315285]
ディープフェイク検出技術はディープフェイクメディアを見つけるのに役立つ。
現在のディープフェイク検出モデルは、卓越した精度(>90%)を達成することができる
本研究は、メイクアップを、ディープフェイク検出器を騙す可能性のある敵攻撃として特定する。
論文 参考訳(メタデータ) (2022-04-19T02:24:30Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。