論文の概要: Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints
- arxiv url: http://arxiv.org/abs/2604.26453v1
- Date: Wed, 29 Apr 2026 09:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.323885
- Title: Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints
- Title(参考訳): クロスモーダルフィンガープリントによる属性誘導型マルチモーダルディープフェイク検出
- Authors: Wasim Ahmad, Wei Zhang, Xuerui Mao,
- Abstract要約: ビデオの偽造方法を特定することができない検出器は、間違ったシグナルを学習している可能性が高い、と私たちは主張する。
二分検出とは異なり、帰属誘導学習は共有埋め込み空間に強い幾何学的制約を課す。
本稿では,属性検出と属性抽出を共同で学習する属性誘導型マルチモーダルディープフェイク検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.598350938853635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual deepfakes have reached a level of realism that makes perceptual detection unreliable, threatening media integrity and biometric security. While multimodal detection has shown promise, most approaches are binary classification tasks that often latch onto dataset-specific artifacts rather than genuine generative traces. We argue that a detector incapable of identifying how a video was forged is likely learning the wrong signal. Unlike binary detection, attribution-guided learning imposes a stronger geometric constraint on the shared embedding space, forcing the model to encode generator-specific forensic content rather than shortcuts. We propose the Attribution-Guided Multimodal Deepfake Detection (AMDD) framework, which jointly learns to detect and attribute manipulation. AMDD treats generator attribution as a structured regularization that constrains representation geometry toward forensically meaningful features. We introduce a Cross-Modal Forensic Fingerprint Consistency (CMFFC) loss to enforce alignment between generator-induced artifacts in visual and audio streams. This exploits the fact that coherent manipulation leaves correlated traces across modalities, grounded in the physical coupling between speech and facial articulation that synthetic pipelines routinely disrupt. Architecturally, we pair a ResNet50 with temporal attention for visual encoding against a pretrained ResNet18 for mel spectrograms, closing the encoder capacity gap found in prior models. On FakeAVCeleb, AMDD achieves 99.7% balanced accuracy and 99.8% AUC with 95.9% attribution accuracy. Cross-dataset evaluation on DeepfakeTIMIT, DFDM, and LAV-DF confirms that real video detection generalizes robustly, while fake detection on unseen generators remains an open challenge that we analyze in depth.
- Abstract(参考訳): オーディオ・ビジュアル・ディープフェイクは、知覚的検出を信頼できないレベルに到達し、メディアの完全性と生体認証のセキュリティを脅かす。
マルチモーダル検出は将来性を示しているが、ほとんどのアプローチは、真の生成トレースではなく、データセット固有のアーティファクトにラッチするバイナリ分類タスクである。
ビデオの偽造方法を特定することができない検出器は、間違ったシグナルを学習している可能性が高い、と私たちは主張する。
二分検出とは異なり、帰属誘導学習は共有埋め込み空間に強い幾何学的制約を課し、ショートカットではなくジェネレータ固有の法医学的内容のエンコードを強制する。
本稿では,アトリビューション誘導型マルチモーダルディープフェイク検出(AMDD)フレームワークを提案する。
AMDDはジェネレータ属性を、表現幾何学を法的な意味のある特徴に制約する構造化正規化として扱う。
画像ストリームとオーディオストリームにおけるジェネレータ誘起アーティファクトのアライメントを強制するために,CMFFC(Cross-Modal Forensic Fingerprint Consistency)の損失を導入する。
このことは、コヒーレントな操作が、合成パイプラインが日常的に破壊される音声と顔の調音の物理的結合に基礎を置き、モダリティ間で相関する痕跡を残すという事実を生かしている。
アーキテクチャ上、私たちはResNet50と時間的注意を合わせ、メルスペクトログラムのための事前訓練されたResNet18に対して視覚的エンコーディングを行い、以前のモデルに見られるエンコーダ容量ギャップを埋めます。
FakeAVCelebでは、AMDDは99.7%のバランスの取れた精度と99.8%のAUCと95.9%の属性の精度を達成している。
DeepfakeTIMIT, DFDM, LAV-DFのクロスデータセット評価では、実際のビデオ検出が堅牢に一般化されているのに対して、未知のジェネレータの偽検出は、我々が深く分析するオープンな課題である。
関連論文リスト
- SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment [74.05278327933006]
SAVeは,音声・視覚深度検出フレームワークで,映像の完全学習を行う。
SAVEは、タグ付けアーティファクトをエミュレートするために、オンザフライ、アイデンティティ保存、地域対応の自明な擬似操作を生成する。
クロスモーダルな証拠を捉えるために、SAVeはリップ音声同期もモデル化している。
論文 参考訳(メタデータ) (2026-03-26T08:01:35Z) - ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models [108.5042835056188]
フォージェリ駆動の観点からトークン圧縮を再構築するトレーニングフリーフレームワークであるForensicZipを紹介した。
ForensicZipは、最先端検出性能を維持しながら、スピードアップとFLOPの90%以上を達成している。
論文 参考訳(メタデータ) (2026-03-12T17:30:49Z) - Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。
マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。
我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文 参考訳(メタデータ) (2025-11-11T09:33:39Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for
Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。
SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。
我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文 参考訳(メタデータ) (2022-11-21T09:38:30Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。