論文の概要: CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention
- arxiv url: http://arxiv.org/abs/2505.18035v1
- Date: Fri, 23 May 2025 15:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.20156
- Title: CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention
- Title(参考訳): CAMME:マルチモーダル・クロスアテンションを用いた適応型ディープフェイク画像検出
- Authors: Naseem Khan, Tuan Nguyen, Amine Bermak, Issa Khalil,
- Abstract要約: マルチヘッド・クロスアテンション機構を用いて,視覚,テキスト,周波数領域の機能を統合するフレームワークであるCAMMEを提案する。
実験では、CAMMEは最先端の手法よりも優れており、自然のシーンでは12.56%、顔のディープフェイクでは13.25%改善している。
- 参考スコア(独自算出の注目度): 4.359154048799454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of sophisticated AI-generated deepfakes poses critical challenges for digital media authentication and societal security. While existing detection methods perform well within specific generative domains, they exhibit significant performance degradation when applied to manipulations produced by unseen architectures--a fundamental limitation as generative technologies rapidly evolve. We propose CAMME (Cross-Attention Multi-Modal Embeddings), a framework that dynamically integrates visual, textual, and frequency-domain features through a multi-head cross-attention mechanism to establish robust cross-domain generalization. Extensive experiments demonstrate CAMME's superiority over state-of-the-art methods, yielding improvements of 12.56% on natural scenes and 13.25% on facial deepfakes. The framework demonstrates exceptional resilience, maintaining (over 91%) accuracy under natural image perturbations and achieving 89.01% and 96.14% accuracy against PGD and FGSM adversarial attacks, respectively. Our findings validate that integrating complementary modalities through cross-attention enables more effective decision boundary realignment for reliable deepfake detection across heterogeneous generative architectures.
- Abstract(参考訳): 高度なAI生成ディープフェイクの普及は、デジタルメディア認証と社会保障にとって重要な課題となっている。
既存の検出手法は特定の生成領域内では良好に機能するが、未知のアーキテクチャによって生成される操作に適用すると、性能が著しく低下する。
CAMME(Cross-Attention Multi-Modal Embeddings)は,マルチヘッドのクロスアテンション機構によって視覚,テキスト,周波数ドメインの機能を動的に統合し,堅牢なクロスドメイン一般化を実現するフレームワークである。
大規模な実験では、CAMMEは最先端の手法よりも優れており、自然のシーンでは12.56%、顔のディープフェイクでは13.25%改善している。
このフレームワークは例外的なレジリエンスを示し、自然画像の摂動下での精度(91%以上)を維持し、それぞれ PGD と FGSM に対する 89.01% と 96.14% の精度を達成した。
本研究は, 相互注意による相補的モダリティの統合により, 不均一な生成アーキテクチャ間での信頼度の高い深度検出において, より効果的な決定境界の調整が可能であることを実証した。
関連論文リスト
- Is Artificial Intelligence Generated Image Detection a Solved Problem? [10.839070838139401]
AIGIBenchは、最先端AIGI検出器の堅牢性と一般化能力を厳格に評価するために設計されたベンチマークである。
これには、高度な画像生成技術と広く採用されている画像生成技術の両方にまたがる、23の多様なフェイクイメージサブセットが含まれている。
11個の先進検出器の実験では、制御された設定で高い精度が報告されているにもかかわらず、これらの検出器は実世界のデータに大きな性能低下を被ることを示した。
論文 参考訳(メタデータ) (2025-05-18T10:00:39Z) - CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes [3.2194551406014886]
ディープフェイク技術は、微妙でコンテキスト対応の操作を可能にすることによって、デジタル画像の完全性を脅かす。
本稿では,低レベルのカプセルを視覚,テキスト,周波数領域のモダリティから統合することにより,このような深層画像編集を検出するために設計されたCapsFakeを提案する。
競争的なルーティング機構を通じて予測される高レベルカプセルは、局所的な特徴を動的に集約し、精密に操作された領域を識別する。
論文 参考訳(メタデータ) (2025-04-27T12:31:47Z) - Decoupled Doubly Contrastive Learning for Cross Domain Facial Action Unit Detection [66.80386429324196]
そこで本稿では,AU 表現を2つに分離した2つのコントラスト適応 (D$2$CA) 手法を提案する。
D$2$CAは、合成顔の質を評価することにより、AUとドメイン因子を乱すように訓練される。
最先端のクロスドメインAU検出アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-12T00:42:17Z) - Hybrid Deepfake Image Detection: A Comprehensive Dataset-Driven Approach Integrating Convolutional and Attention Mechanisms with Frequency Domain Features [0.6700983301090583]
ディープフェイク検出に3つの異なるニューラルネットワークアーキテクチャを用いるアンサンブルベースのアプローチを提案する。
実画像と偽画像を結合クラスタにグループ化する上で,これらのモデルの有効性を実証的に実証した。
我々の重み付けアンサンブルモデルは、SPカップ2025大会の検証データセットにおいて、93.23%の優れた精度を達成する。
論文 参考訳(メタデータ) (2025-02-15T06:02:11Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。