論文の概要: MSCT: Differential Cross-Modal Attention for Deepfake Detection
- arxiv url: http://arxiv.org/abs/2604.07741v1
- Date: Thu, 09 Apr 2026 02:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.654028
- Title: MSCT: Differential Cross-Modal Attention for Deepfake Detection
- Title(参考訳): MSCT:ディープフェイク検出のための差分クロスモーダルアテンション
- Authors: Fangda Wei, Miao Liu, Yingxue Wang, Jing Wang, Shenghui Zhao, Nan Li,
- Abstract要約: ディープフェイク検出は通常、ビデオ内の偽のトレースをチェックするために、補完的なマルチモーダルモデルを使用する。
従来のマルチモーダルフォージェリー検出法では,特徴抽出やアライメントの偏差が不十分であった。
提案手法は, 隣接する埋め込みの特徴を統合するためのマルチスケール自己注意と, ヒューズマルチモーダル特徴に対する差分相互注意を含む。
- 参考スコア(独自算出の注目度): 8.183317636944706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual deepfake detection typically employs a complementary multi-modal model to check the forgery traces in the video. These methods primarily extract forgery traces through audio-visual alignment, which results from the inconsistency between audio and video modalities. However, the traditional multi-modal forgery detection method has the problem of insufficient feature extraction and modal alignment deviation. To address this, we propose a multi-scale cross-modal transformer encoder (MSCT) for deepfake detection. Our approach includes a multi-scale self-attention to integrate the features of adjacent embeddings and a differential cross-modal attention to fuse multi-modal features. Our experiments demonstrate competitive performance on the FakeAVCeleb dataset, validating the effectiveness of the proposed structure.
- Abstract(参考訳): オーディオ・ビジュアル・ディープフェイク検出は、通常、ビデオ内の偽の痕跡をチェックするために、補完的なマルチモーダルモデルを使用する。
これらの手法は、主にオーディオと映像の整合性の不整合によるオーディオと視覚のアライメントを通して偽の痕跡を抽出する。
しかし,従来のマルチモーダルフォージェリ検出法では,特徴抽出とモーダルアライメントの偏差が不十分である。
そこで本研究では,ディープフェイク検出のためのマルチスケールクロスモーダルトランスフォーマーエンコーダ(MSCT)を提案する。
提案手法は, 隣接する埋め込みの特徴を統合するためのマルチスケール自己注意と, ヒューズマルチモーダル特徴に対する差分相互注意を含む。
本実験は,FakeAVCelebデータセット上での競合性能を実証し,提案手法の有効性を検証した。
関連論文リスト
- CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文 参考訳(メタデータ) (2025-05-21T08:11:07Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Tuned Reverse Distillation: Enhancing Multimodal Industrial Anomaly Detection with Crossmodal Tuners [15.89869857998053]
マルチブランチ設計に基づくチューニング逆蒸留(TRD)を提案し,マルチモーダル産業用ADを実現する。
独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。
本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-12T05:26:50Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。