論文の概要: CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation
- arxiv url: http://arxiv.org/abs/2505.15233v1
- Date: Wed, 21 May 2025 08:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.215009
- Title: CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation
- Title(参考訳): CAD:クロスモーダルアライメントと蒸留によるビデオディープフェイク検出のための汎用多モードフレームワーク
- Authors: Yuxuan Du, Zhendong Wang, Yuhao Luo, Caiyong Piao, Zhiyuan Yan, Hao Li, Li Yuan,
- Abstract要約: クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
- 参考スコア(独自算出の注目度): 24.952907733127223
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid emergence of multimodal deepfakes (visual and auditory content are manipulated in concert) undermines the reliability of existing detectors that rely solely on modality-specific artifacts or cross-modal inconsistencies. In this work, we first demonstrate that modality-specific forensic traces (e.g., face-swap artifacts or spectral distortions) and modality-shared semantic misalignments (e.g., lip-speech asynchrony) offer complementary evidence, and that neglecting either aspect limits detection performance. Existing approaches either naively fuse modality-specific features without reconciling their conflicting characteristics or focus predominantly on semantic misalignment at the expense of modality-specific fine-grained artifact cues. To address these shortcomings, we propose a general multimodal framework for video deepfake detection via Cross-Modal Alignment and Distillation (CAD). CAD comprises two core components: 1) Cross-modal alignment that identifies inconsistencies in high-level semantic synchronization (e.g., lip-speech mismatches); 2) Cross-modal distillation that mitigates feature conflicts during fusion while preserving modality-specific forensic traces (e.g., spectral distortions in synthetic audio). Extensive experiments on both multimodal and unimodal (e.g., image-only/video-only)deepfake benchmarks demonstrate that CAD significantly outperforms previous methods, validating the necessity of harmonious integration of multimodal complementary information.
- Abstract(参考訳): マルチモーダルディープフェイク(視覚的および聴覚的内容がコンサートで操作される)の急速な出現は、モーダル固有のアーティファクトやクロスモーダル不整合にのみ依存する既存の検出器の信頼性を損なう。
本研究は、まず、モダリティ特異的な法医学的トレース(例えば、顔スワップアーティファクトやスペクトル歪み)とモダリティ共有セマンティック・アライメント(例えば、リップ音声非同期)が相補的な証拠となり、どちらのアスペクト制限検出性能も無視できることを実証する。
既存のアプローチは、相反する特徴を和らげることなく、直感的にモダリティ固有の特徴を融合させるか、あるいは、モダリティ固有の微細なアーティファクト・キューを犠牲にして意味的ミスアライメントに主に焦点を合わせるかのいずれかである。
これらの欠点に対処するため,CAD(Cross-Modal Alignment and Distillation)を用いたビデオディープフェイク検出のための汎用マルチモーダルフレームワークを提案する。
CADは2つのコアコンポーネントから構成される。
1)高レベルのセマンティックシンセシス(例えば、唇音のミスマッチ)の不整合を識別するクロスモーダルアライメント。
2) 融合時の相反を緩和するクロスモーダル蒸留は, 合成音声のスペクトル歪み等) を保ちつつ, 融解時の相反を緩和する。
マルチモーダルおよびユニモーダル(例えば、画像のみ/ビデオのみ)のDeepfakeベンチマークにおいて、CADは従来の手法よりも大幅に優れており、マルチモーダル補完情報の調和的な統合の必要性が検証されている。
関連論文リスト
- Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method [11.01048485795428]
そこで我々は,新たな暴力検出フレームワークを提案する。
一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。
ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-13T17:14:25Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。