論文の概要: FauForensics: Boosting Audio-Visual Deepfake Detection with Facial Action Units
- arxiv url: http://arxiv.org/abs/2505.08294v1
- Date: Tue, 13 May 2025 07:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.46863
- Title: FauForensics: Boosting Audio-Visual Deepfake Detection with Facial Action Units
- Title(参考訳): Fauforensics: 顔アクションユニットを用いたオーディオ・ビジュアルディープフェイク検出
- Authors: Jian Wang, Baoyuan Wu, Li Liu, Qingshan Liu,
- Abstract要約: 本稿では,オーディオ・ビジュアル・ディープフェイク検出のためのFauForensicsという新しいフレームワークを提案する。
本手法は, フレーム単位の音響視覚的類似性を, 専用の融合モジュールを用いて計算する。
FakeAVCelebとLAV-DFの実験では、最先端(SOTA)性能と、平均4.83%のクロスデータセットの一般化性が示された。
- 参考スコア(独自算出の注目度): 40.86547778808649
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid evolution of generative AI has increased the threat of realistic audio-visual deepfakes, demanding robust detection methods. Existing solutions primarily address unimodal (audio or visual) forgeries but struggle with multimodal manipulations due to inadequate handling of heterogeneous modality features and poor generalization across datasets. To this end, we propose a novel framework called FauForensics by introducing biologically invariant facial action units (FAUs), which is a quantitative descriptor of facial muscle activity linked to emotion physiology. It serves as forgery-resistant representations that reduce domain dependency while capturing subtle dynamics often disrupted in synthetic content. Besides, instead of comparing entire video clips as in prior works, our method computes fine-grained frame-wise audiovisual similarities via a dedicated fusion module augmented with learnable cross-modal queries. It dynamically aligns temporal-spatial lip-audio relationships while mitigating multi-modal feature heterogeneity issues. Experiments on FakeAVCeleb and LAV-DF show state-of-the-art (SOTA) performance and superior cross-dataset generalizability with up to an average of 4.83\% than existing methods.
- Abstract(参考訳): 生成AIの急速な進化により、現実的なオーディオ・ビジュアル・ディープフェイクの脅威が増大し、堅牢な検出方法が求められている。
既存のソリューションは、主に単調な(オーディオまたは視覚的な)偽造に対処するが、不均一なモダリティの特徴の不十分なハンドリングとデータセット間の一般化が不十分なため、マルチモーダルな操作に苦労する。
そこで本研究では,感情生理に関連付けられた顔面筋活動の定量的記述である,生物学的に不変な顔面行動単位(FAUs)を導入することにより,FauForensicsと呼ばれる新しい枠組みを提案する。
これは偽造に抵抗する表現として機能し、ドメイン依存性を減らし、微妙なダイナミックスを捉え、しばしば合成内容で破壊される。
また,従来のようなビデオクリップ全体を比較するのではなく,学習可能なクロスモーダルクエリを付加した専用融合モジュールを用いて,フレームワイドの音響視覚的類似性を計算する。
マルチモーダル特徴の不均一性問題を緩和しながら, 時間・空間的リップオーディオ関係を動的に整列させる。
FakeAVCelebとLAV-DFの実験では、既存の方法よりも平均4.83倍の精度で、最先端(SOTA)性能と優れたクロスデータセットの一般化性を示した。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。