論文の概要: CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention
- arxiv url: http://arxiv.org/abs/2505.18035v1
- Date: Fri, 23 May 2025 15:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.20156
- Title: CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention
- Title(参考訳): CAMME:マルチモーダル・クロスアテンションを用いた適応型ディープフェイク画像検出
- Authors: Naseem Khan, Tuan Nguyen, Amine Bermak, Issa Khalil,
- Abstract要約: マルチヘッド・クロスアテンション機構を用いて,視覚,テキスト,周波数領域の機能を統合するフレームワークであるCAMMEを提案する。
実験では、CAMMEは最先端の手法よりも優れており、自然のシーンでは12.56%、顔のディープフェイクでは13.25%改善している。
- 参考スコア(独自算出の注目度): 4.359154048799454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of sophisticated AI-generated deepfakes poses critical challenges for digital media authentication and societal security. While existing detection methods perform well within specific generative domains, they exhibit significant performance degradation when applied to manipulations produced by unseen architectures--a fundamental limitation as generative technologies rapidly evolve. We propose CAMME (Cross-Attention Multi-Modal Embeddings), a framework that dynamically integrates visual, textual, and frequency-domain features through a multi-head cross-attention mechanism to establish robust cross-domain generalization. Extensive experiments demonstrate CAMME's superiority over state-of-the-art methods, yielding improvements of 12.56% on natural scenes and 13.25% on facial deepfakes. The framework demonstrates exceptional resilience, maintaining (over 91%) accuracy under natural image perturbations and achieving 89.01% and 96.14% accuracy against PGD and FGSM adversarial attacks, respectively. Our findings validate that integrating complementary modalities through cross-attention enables more effective decision boundary realignment for reliable deepfake detection across heterogeneous generative architectures.
- Abstract(参考訳): 高度なAI生成ディープフェイクの普及は、デジタルメディア認証と社会保障にとって重要な課題となっている。
既存の検出手法は特定の生成領域内では良好に機能するが、未知のアーキテクチャによって生成される操作に適用すると、性能が著しく低下する。
CAMME(Cross-Attention Multi-Modal Embeddings)は,マルチヘッドのクロスアテンション機構によって視覚,テキスト,周波数ドメインの機能を動的に統合し,堅牢なクロスドメイン一般化を実現するフレームワークである。
大規模な実験では、CAMMEは最先端の手法よりも優れており、自然のシーンでは12.56%、顔のディープフェイクでは13.25%改善している。
このフレームワークは例外的なレジリエンスを示し、自然画像の摂動下での精度(91%以上)を維持し、それぞれ PGD と FGSM に対する 89.01% と 96.14% の精度を達成した。
本研究は, 相互注意による相補的モダリティの統合により, 不均一な生成アーキテクチャ間での信頼度の高い深度検出において, より効果的な決定境界の調整が可能であることを実証した。
関連論文リスト
- RCDN: Real-Centered Detection Network for Robust Face Forgery Identification [7.41356813669013]
既存の検出方法は、同一領域内でトレーニングやテストを行う場合、ほぼ完璧な性能を達成する。
新しい偽造技術が継続的に出現し、検出器は目に見えない操作に対して信頼性を保たなければならない。
本稿では,周波数空間畳み込みニューラルネットワーク(CNN)フレームワークであるReal-Centered Detection Network (RCDN)を提案する。
論文 参考訳(メタデータ) (2026-01-17T17:09:15Z) - ForensicFormer: Hierarchical Multi-Scale Reasoning for Cross-Domain Image Forgery Detection [0.0]
ForensicFormerは階層的なフレームワークで、低レベルのアーティファクト検出、中レベルの境界解析、高レベルのセマンティック推論を統一する。
本手法は,従来の操作,GAN生成画像,拡散モデル出力にまたがる7種類のテストセットの平均精度を86.8%維持する。
論文 参考訳(メタデータ) (2026-01-12T04:29:36Z) - Patch-Discontinuity Mining for Generalized Deepfake Detection [18.30761992906741]
ディープフェイク検出法は、しばしば手作りの法医学的手がかりと複雑なアーキテクチャに依存している。
我々は,強力な視覚モデルをコンパクトで巧妙なネットワーク設計でディープフェイク検出タスクに転送するフレームワークであるGenDFを提案する。
実験により、GenDFはクロスドメインおよびクロスマニピュレーション設定における最先端の一般化性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-26T13:18:14Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - A Dual-Branch CNN for Robust Detection of AI-Generated Facial Forgeries [4.313893060699182]
顔偽造技術は、AIセキュリティ、デジタルメディアの完全性、および公的な信頼に重大な脅威をもたらす。
顔偽造検出のための新しい二分岐畳み込みニューラルネットワークを提案する。
4つの代表法から生成された鍛造画像を含むDiFFベンチマークを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2025-10-28T17:06:40Z) - Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - CAST: Cross-Attentive Spatio-Temporal feature fusion for Deepfake detection [0.0]
CNNは空間的アーティファクトのキャプチャに有効であり、Transformerは時間的不整合のモデリングに優れている。
本稿では,空間的特徴と時間的特徴を効果的に融合させるために,クロスアテンションを利用した統合CASTモデルを提案する。
我々はFaceForensics++、Celeb-DF、DeepfakeDetectionデータセットを用いてモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-06-26T18:51:17Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - Is Artificial Intelligence Generated Image Detection a Solved Problem? [10.839070838139401]
AIGIBenchは、最先端AIGI検出器の堅牢性と一般化能力を厳格に評価するために設計されたベンチマークである。
これには、高度な画像生成技術と広く採用されている画像生成技術の両方にまたがる、23の多様なフェイクイメージサブセットが含まれている。
11個の先進検出器の実験では、制御された設定で高い精度が報告されているにもかかわらず、これらの検出器は実世界のデータに大きな性能低下を被ることを示した。
論文 参考訳(メタデータ) (2025-05-18T10:00:39Z) - CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes [3.2194551406014886]
ディープフェイク技術は、微妙でコンテキスト対応の操作を可能にすることによって、デジタル画像の完全性を脅かす。
本稿では,低レベルのカプセルを視覚,テキスト,周波数領域のモダリティから統合することにより,このような深層画像編集を検出するために設計されたCapsFakeを提案する。
競争的なルーティング機構を通じて予測される高レベルカプセルは、局所的な特徴を動的に集約し、精密に操作された領域を識別する。
論文 参考訳(メタデータ) (2025-04-27T12:31:47Z) - Decoupled Doubly Contrastive Learning for Cross Domain Facial Action Unit Detection [66.80386429324196]
そこで本稿では,AU 表現を2つに分離した2つのコントラスト適応 (D$2$CA) 手法を提案する。
D$2$CAは、合成顔の質を評価することにより、AUとドメイン因子を乱すように訓練される。
最先端のクロスドメインAU検出アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-12T00:42:17Z) - Hybrid Deepfake Image Detection: A Comprehensive Dataset-Driven Approach Integrating Convolutional and Attention Mechanisms with Frequency Domain Features [0.6700983301090583]
ディープフェイク検出に3つの異なるニューラルネットワークアーキテクチャを用いるアンサンブルベースのアプローチを提案する。
実画像と偽画像を結合クラスタにグループ化する上で,これらのモデルの有効性を実証的に実証した。
我々の重み付けアンサンブルモデルは、SPカップ2025大会の検証データセットにおいて、93.23%の優れた精度を達成する。
論文 参考訳(メタデータ) (2025-02-15T06:02:11Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。