論文の概要: CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features
- arxiv url: http://arxiv.org/abs/2502.10682v2
- Date: Fri, 30 May 2025 11:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.935677
- Title: CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features
- Title(参考訳): CAE-Net:空間・周波数領域の特徴を考慮した畳み込み・アテンション機構を用いた一般化ディープフェイク画像検出
- Authors: Kafi Anan, Anindya Bhattacharjee, Ashir Intesher, Kaidul Islam, Abrar Assaeem Fuad, Utsab Saha, Hafiz Imtiaz,
- Abstract要約: クラス不均衡に対処し,アンサンブルベースのアーキテクチャであるemphCAE-Netを考案した。
私たちのアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、3つの異なるニューラルネットワークアーキテクチャを採用している。
EfficientNet B0アーキテクチャは90.79%、ConvNeXtアーキテクチャは89.49%、DeiTアーキテクチャは89.32%である。
- 参考スコア(独自算出の注目度): 0.6700983301090583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective deepfake detection tools are becoming increasingly essential to the growing usage of deepfakes in unethical practices. There exists a wide range of deepfake generation techniques, which makes it challenging to develop an accurate universal detection mechanism. The 2025 IEEE Signal Processing Cup (\textit{DFWild-Cup} competition) provided a diverse dataset of deepfake images containing significant class imbalance. The images in the dataset are generated from multiple deepfake image generators, for training machine learning model(s) to emphasize the generalization of deepfake detection. To this end, we proposed a disjoint set-based multistage training method to address the class imbalance and devised an ensemble-based architecture \emph{CAE-Net}. Our architecture consists of a convolution- and attention-based ensemble network, and employs three different neural network architectures: EfficientNet, Data-Efficient Image Transformer (DeiT), and ConvNeXt with wavelet transform to capture both local and global features of deepfakes. We visualize the specific regions that these models focus on for classification using Grad-CAM, and empirically demonstrate the effectiveness of these models in grouping real and fake images into cohesive clusters using t-SNE plots. Individually, the EfficientNet B0 architecture has achieved 90.79\% accuracy, whereas the ConvNeXt and the DeiT architecture have achieved 89.49\% and 89.32\% accuracy, respectively. With these networks, our weighted ensemble model achieves an excellent accuracy of 94.63\% on the validation dataset of the SP Cup 2025 competition. The equal error rate of 4.72\% and the Area Under the ROC curve of 97.37\% further confirm the stability of our proposed method. Finally, the robustness of our proposed model against adversarial perturbation attacks is tested as well, showing the inherent defensive properties of the ensemble approach.
- Abstract(参考訳): 効果的なディープフェイク検出ツールは、非倫理的な実践におけるディープフェイクの使用の増加にますます不可欠になりつつある。
様々なディープフェイク生成技術があり、正確な普遍的な検出機構を開発するのが困難である。
2025年のIEEE Signal Processing Cup (\textit{DFWild-Cup} コンペティション)は、重要なクラス不均衡を含むディープフェイク画像の多様なデータセットを提供した。
データセット内の画像は、ディープフェイク検出の一般化を強調するための機械学習モデルをトレーニングするために、複数のディープフェイク画像生成装置から生成される。
そこで本研究では,クラス不均衡に対処する不整合集合に基づく多段階学習手法を提案し,アンサンブルベースのアーキテクチャであるemph{CAE-Net}を考案した。
我々のアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、ディープフェイクのローカルおよびグローバル両方の特徴をキャプチャするために、ウェーブレット変換を備えたEfficientNet、Data-Efficient Image Transformer(DeiT)、ConvNeXtの3つの異なるニューラルネットワークアーキテクチャを採用している。
我々は、これらのモデルがGrad-CAMを用いた分類にフォーカスする特定の領域を可視化し、実画像と偽画像をt-SNEプロットを用いて結束クラスタにグループ化する際のこれらのモデルの有効性を実証的に示す。
EfficientNet B0 アーキテクチャは 90.79 % の精度を、ConvNeXt アーキテクチャと DeiT アーキテクチャは 89.49 % と 89.32 % の精度をそれぞれ達成している。
これらのネットワークを用いて,SPカップ2025競技の検証データセットにおいて,重み付きアンサンブルモデルの精度は94.63倍となる。
等価誤差率 4.72 % と ROC 曲線 97.37 % の下での面積は,提案手法の安定性をさらに裏付けるものである。
最後に,本モデルによる対向的摂動攻撃に対するロバスト性を検証し,アンサンブル方式の防御特性を示す。
関連論文リスト
- Uncovering Critical Features for Deepfake Detection through the Lottery Ticket Hypothesis [1.723963662326051]
ディープフェイク技術は情報整合性と社会的信頼に重大な課題をもたらす。
本研究では,LTH(Lottery Ticket hypothesis)のディープフェイク検出への応用について検討した。
検出精度を高く保ちながら、ニューラルネットワークを効率的に刈り取る方法について検討する。
論文 参考訳(メタデータ) (2025-07-21T13:58:24Z) - DFCon: Attention-Driven Supervised Contrastive Learning for Robust Deepfake Detection [0.3818645814949463]
本報告では, IEEE SP Cup 2025: Deepfake Face Detection in the Wild (DFWild-Cup) へのアプローチについて述べる。
提案手法では,MaxViT,CoAtNet,EVA-02などの高度なバックボーンモデルを用いて,教師付きコントラスト損失を用いて微調整を行い,特徴分離を向上させる。
提案システムは,実環境下でのディープフェイク検出の課題に対処し,検証データセットで95.83%の精度を実現する。
論文 参考訳(メタデータ) (2025-01-28T04:46:50Z) - Wavelet-Driven Generalizable Framework for Deepfake Face Forgery Detection [0.0]
Wavelet-CLIPは、ウェーブレット変換とViT-L/14アーキテクチャに由来する機能を統合したディープフェイク検出フレームワークで、CLIP方式で事前トレーニングされている。
提案手法は,データ間一般化における平均AUC0.749,不明瞭なディープフェイクに対するロバスト性0.893を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-26T21:16:51Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Generalized Deepfakes Detection with Reconstructed-Blended Images and
Multi-scale Feature Reconstruction Network [14.749857283918157]
未確認データセットに対する堅牢な適用性を有するブレンドベース検出手法を提案する。
実験により、この手法により、未知のデータ上でのクロスマニピュレーション検出とクロスデータセット検出の両方のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2023-12-13T09:49:15Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Deepfake Detection with Deep Learning: Convolutional Neural Networks
versus Transformers [1.179179628317559]
8つの有望なディープラーニングアーキテクチャを特定し、Deepfake検出モデルの設計と開発を行い、確立されたDeepfakeデータセット上で実験を行った。
FF++ 2020、Google DFD、Celeb-DF、Deeper Forensics、DFDC Deepfakesの検出において、88.74%、99.53%、97.68%、99.73%、92.02%の精度、99.95%、100%、99.88%、99.99%、97.61%のAUCを達成した。
論文 参考訳(メタデータ) (2023-04-07T15:33:09Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Learning to Recognize Patch-Wise Consistency for Deepfake Detection [39.186451993950044]
パッチワイド一貫性学習(PCL)という,このタスクのための表現学習手法を提案する。
PCLは、画像のソース機能の一貫性を測定し、複数の偽造方法に対する優れた解釈性と堅牢性で表現することを学びます。
7つの一般的なDeepfake検出データセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2020-12-16T23:06:56Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。