論文の概要: CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features
- arxiv url: http://arxiv.org/abs/2502.10682v2
- Date: Fri, 30 May 2025 11:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.935677
- Title: CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features
- Title(参考訳): CAE-Net:空間・周波数領域の特徴を考慮した畳み込み・アテンション機構を用いた一般化ディープフェイク画像検出
- Authors: Kafi Anan, Anindya Bhattacharjee, Ashir Intesher, Kaidul Islam, Abrar Assaeem Fuad, Utsab Saha, Hafiz Imtiaz,
- Abstract要約: クラス不均衡に対処し,アンサンブルベースのアーキテクチャであるemphCAE-Netを考案した。
私たちのアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、3つの異なるニューラルネットワークアーキテクチャを採用している。
EfficientNet B0アーキテクチャは90.79%、ConvNeXtアーキテクチャは89.49%、DeiTアーキテクチャは89.32%である。
- 参考スコア(独自算出の注目度): 0.6700983301090583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective deepfake detection tools are becoming increasingly essential to the growing usage of deepfakes in unethical practices. There exists a wide range of deepfake generation techniques, which makes it challenging to develop an accurate universal detection mechanism. The 2025 IEEE Signal Processing Cup (\textit{DFWild-Cup} competition) provided a diverse dataset of deepfake images containing significant class imbalance. The images in the dataset are generated from multiple deepfake image generators, for training machine learning model(s) to emphasize the generalization of deepfake detection. To this end, we proposed a disjoint set-based multistage training method to address the class imbalance and devised an ensemble-based architecture \emph{CAE-Net}. Our architecture consists of a convolution- and attention-based ensemble network, and employs three different neural network architectures: EfficientNet, Data-Efficient Image Transformer (DeiT), and ConvNeXt with wavelet transform to capture both local and global features of deepfakes. We visualize the specific regions that these models focus on for classification using Grad-CAM, and empirically demonstrate the effectiveness of these models in grouping real and fake images into cohesive clusters using t-SNE plots. Individually, the EfficientNet B0 architecture has achieved 90.79\% accuracy, whereas the ConvNeXt and the DeiT architecture have achieved 89.49\% and 89.32\% accuracy, respectively. With these networks, our weighted ensemble model achieves an excellent accuracy of 94.63\% on the validation dataset of the SP Cup 2025 competition. The equal error rate of 4.72\% and the Area Under the ROC curve of 97.37\% further confirm the stability of our proposed method. Finally, the robustness of our proposed model against adversarial perturbation attacks is tested as well, showing the inherent defensive properties of the ensemble approach.
- Abstract(参考訳): 効果的なディープフェイク検出ツールは、非倫理的な実践におけるディープフェイクの使用の増加にますます不可欠になりつつある。
様々なディープフェイク生成技術があり、正確な普遍的な検出機構を開発するのが困難である。
2025年のIEEE Signal Processing Cup (\textit{DFWild-Cup} コンペティション)は、重要なクラス不均衡を含むディープフェイク画像の多様なデータセットを提供した。
データセット内の画像は、ディープフェイク検出の一般化を強調するための機械学習モデルをトレーニングするために、複数のディープフェイク画像生成装置から生成される。
そこで本研究では,クラス不均衡に対処する不整合集合に基づく多段階学習手法を提案し,アンサンブルベースのアーキテクチャであるemph{CAE-Net}を考案した。
我々のアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、ディープフェイクのローカルおよびグローバル両方の特徴をキャプチャするために、ウェーブレット変換を備えたEfficientNet、Data-Efficient Image Transformer(DeiT)、ConvNeXtの3つの異なるニューラルネットワークアーキテクチャを採用している。
我々は、これらのモデルがGrad-CAMを用いた分類にフォーカスする特定の領域を可視化し、実画像と偽画像をt-SNEプロットを用いて結束クラスタにグループ化する際のこれらのモデルの有効性を実証的に示す。
EfficientNet B0 アーキテクチャは 90.79 % の精度を、ConvNeXt アーキテクチャと DeiT アーキテクチャは 89.49 % と 89.32 % の精度をそれぞれ達成している。
これらのネットワークを用いて,SPカップ2025競技の検証データセットにおいて,重み付きアンサンブルモデルの精度は94.63倍となる。
等価誤差率 4.72 % と ROC 曲線 97.37 % の下での面積は,提案手法の安定性をさらに裏付けるものである。
最後に,本モデルによる対向的摂動攻撃に対するロバスト性を検証し,アンサンブル方式の防御特性を示す。
関連論文リスト
- DFCon: Attention-Driven Supervised Contrastive Learning for Robust Deepfake Detection [0.3818645814949463]
本報告では, IEEE SP Cup 2025: Deepfake Face Detection in the Wild (DFWild-Cup) へのアプローチについて述べる。
提案手法では,MaxViT,CoAtNet,EVA-02などの高度なバックボーンモデルを用いて,教師付きコントラスト損失を用いて微調整を行い,特徴分離を向上させる。
提案システムは,実環境下でのディープフェイク検出の課題に対処し,検証データセットで95.83%の精度を実現する。
論文 参考訳(メタデータ) (2025-01-28T04:46:50Z) - Wavelet-Driven Generalizable Framework for Deepfake Face Forgery Detection [0.0]
Wavelet-CLIPは、ウェーブレット変換とViT-L/14アーキテクチャに由来する機能を統合したディープフェイク検出フレームワークで、CLIP方式で事前トレーニングされている。
提案手法は,データ間一般化における平均AUC0.749,不明瞭なディープフェイクに対するロバスト性0.893を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-26T21:16:51Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Generalized Deepfakes Detection with Reconstructed-Blended Images and
Multi-scale Feature Reconstruction Network [14.749857283918157]
未確認データセットに対する堅牢な適用性を有するブレンドベース検出手法を提案する。
実験により、この手法により、未知のデータ上でのクロスマニピュレーション検出とクロスデータセット検出の両方のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2023-12-13T09:49:15Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Deepfake Detection with Deep Learning: Convolutional Neural Networks
versus Transformers [1.179179628317559]
8つの有望なディープラーニングアーキテクチャを特定し、Deepfake検出モデルの設計と開発を行い、確立されたDeepfakeデータセット上で実験を行った。
FF++ 2020、Google DFD、Celeb-DF、Deeper Forensics、DFDC Deepfakesの検出において、88.74%、99.53%、97.68%、99.73%、92.02%の精度、99.95%、100%、99.88%、99.99%、97.61%のAUCを達成した。
論文 参考訳(メタデータ) (2023-04-07T15:33:09Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。