論文の概要: Towards Generalizable Deepfake Image Detection with Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.17376v1
- Date: Sun, 19 Apr 2026 10:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.492477
- Title: Towards Generalizable Deepfake Image Detection with Vision Transformers
- Title(参考訳): 視覚変換器を用いた一般化可能なディープフェイク画像検出に向けて
- Authors: Kaliki V Srinanda, M Manvith Prabhu, Hemanth K Mogilipalem, Jayavarapu S Abhinai, Vaibhav Santhosh, Aryan Herur, Deepu Vijayasenan,
- Abstract要約: 本稿では、DINOv2、AIMv2、OpenCLIPのViT-L/14のような細調整された視覚変換器のアンサンブルを用いて、ディープフェイクを検出する一般化可能な方法を作成する。
実験の結果,DF-Wildテストセットでは,AUCが96.77%,EER(Equal Error Rate)が9%であった。
- 参考スコア(独自算出の注目度): 0.7641495778058912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In today's day and age, we face a challenge in detecting deepfake images because of the fast evolution of modern generative models and the poor generalization capability of existing methods. In this paper, we use an ensemble of fine-tuned vision transformers like DINOv2, AIMv2 and OpenCLIP's ViT-L/14 to create generalizable method to detect deepfakes. We use the DF-Wild dataset released as part of the IEEE SP Cup 2025, because it uses a challenging and diverse set of manipulations and generation techniques. We started our experiments with CNN classifiers trained on spatial features. Experimental results show that our ensemble outperforms individual models and strong CNN baselines, achieving an AUC of 96.77% and an Equal Error Rate (EER) of just 9% on the DF-Wild test set, beating the state-of-the-art deepfake detection algorithm Effort by 7.05% and 8% in AUC and EER respectively. This was the winning solution for SP Cup, presented at ICASSP 2025.
- Abstract(参考訳): 現代の生成モデルの急速な進化と,既存の手法の一般化能力の低さから,現在の日と年では,ディープフェイク画像検出の課題に直面している。
本稿では、DINOv2、AIMv2、OpenCLIPのViT-L/14のような細調整された視覚変換器のアンサンブルを用いて、ディープフェイクを検出する一般化可能な方法を提案する。
IEEE SP Cup 2025の一部としてリリースされたDF-Wildデータセットを使用します。
空間的特徴を訓練したCNN分類器を用いて実験を開始した。
実験の結果,AUCは96.77%,EERは9%に過ぎず,最先端の深度検出アルゴリズムであるEffortを7.05%,EERは8%上回った。
これは、ICASSP 2025で発表されたSPカップの勝利の解決策であった。
関連論文リスト
- Practical Manipulation Model for Robust Deepfake Detection [55.2480439325792]
画像超解像領域において,より現実的な劣化モデルを構築した。
擬似フェイクの空間を、ポアソンブレンディング、より多様なマスク、ジェネレータアーティファクト、およびイントラクタを用いて拡張する。
DFDCデータセットとDFDCPデータセットでは、それぞれ3.51%$と6.21%$AUCが明らかに増加した。
論文 参考訳(メタデータ) (2025-06-05T15:06:16Z) - CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features [0.6700983301090583]
クラス不均衡に対処し,アンサンブルベースのアーキテクチャであるemphCAE-Netを考案した。
私たちのアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、3つの異なるニューラルネットワークアーキテクチャを採用している。
EfficientNet B0アーキテクチャは90.79%、ConvNeXtアーキテクチャは89.49%、DeiTアーキテクチャは89.32%である。
論文 参考訳(メタデータ) (2025-02-15T06:02:11Z) - DFCon: Attention-Driven Supervised Contrastive Learning for Robust Deepfake Detection [0.3818645814949463]
本報告では, IEEE SP Cup 2025: Deepfake Face Detection in the Wild (DFWild-Cup) へのアプローチについて述べる。
提案手法では,MaxViT,CoAtNet,EVA-02などの高度なバックボーンモデルを用いて,教師付きコントラスト損失を用いて微調整を行い,特徴分離を向上させる。
提案システムは,実環境下でのディープフェイク検出の課題に対処し,検証データセットで95.83%の精度を実現する。
論文 参考訳(メタデータ) (2025-01-28T04:46:50Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Combining EfficientNet and Vision Transformers for Video Deepfake
Detection [6.365889364810238]
ディープフェイク(Deepfakes)は、視聴者を騙すために信頼できるビデオを取得するためのデジタル操作の結果である。
本研究では,様々なタイプの視覚変換器と,特徴抽出器として使用される畳み込み効率ネットB0を組み合わせる。
最も優れたモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。
論文 参考訳(メタデータ) (2021-07-06T13:35:11Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Deepfake Detection Scheme Based on Vision Transformer and Distillation [4.716110829725784]
偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
論文 参考訳(メタデータ) (2021-04-03T09:13:05Z) - Deepfake Video Detection Using Convolutional Vision Transformer [0.0]
ディープラーニング技術は、Deepfakesとして知られる超現実的なビデオを生成し合成することができる。
Deepfakesは、アイデンティティの盗難、フィッシング、詐欺などの有害な目的のために使用された場合、すべての人に光る脅威をもたらします。
本稿では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:56:05Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。