論文の概要: EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection
- arxiv url: http://arxiv.org/abs/2605.19630v1
- Date: Tue, 19 May 2026 10:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.27303
- Title: EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection
- Title(参考訳): EMO-BOOST:ディープフェイク検出における一般化のための感情強調オーディオ映像機能
- Authors: Aritra Marik, Marcel Klemt, Anna Rohrbach,
- Abstract要約: Emo-Boostは、市販のRGBおよび音響指向のディープフェイク検出器と感情に基づくディープフェイク検出器EmoForensicsを融合したマルチモーダルディープフェイク検出フレームワークである。
その結果,EmoForensicsと低レベル集束法は相補的な信号を捕捉し,両信号の組み合わせにより,FakeAVCeleb上で平均2.1%のクロスマニピュレーション一般化AUCが向上することがわかった。
- 参考スコア(独自算出の注目度): 10.738517443398742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With every advancement in generative AI models, forensics is under increasing pressure. The constant emergence of new generation techniques makes it impossible to collect data for each manipulation to train a deepfake detection model. Thus, generalizing to deepfakes unseen during training is one of the major challenges in current deepfake detection research. To tackle this challenge, we employ high-level semantic cues and argue that these cues can support low-level focused approaches in generalizing to unseen types of manipulations. In this work, we study emotions as a high-level semantic cue. We propose Emo-Boost, a multimodal deepfake detection framework that fuses an off-the-shelf RGB- and acoustic-focused deepfake detector with our emotion-based deepfake detector EmoForensics. EmoForensics utilises vision and audio emotion recognition modules and models intra- and inter-modal temporal consistency in emotion representations from an audio-visual stream. We found that EmoForensics and the low-level focused method capture complementary signals. Consequently, combining both signals in EmoBoost enhances the average cross-manipulation generalization AUC by 2.1% on FakeAVCeleb.
- Abstract(参考訳): 生成AIモデルのあらゆる進歩により、法医学は圧力が増している。
新たな生成技術が常に出現することにより、各操作のためのデータ収集が不可能になり、ディープフェイク検出モデルをトレーニングすることが可能になる。
したがって、トレーニング中に見えないディープフェイクを一般化することは、現在のディープフェイク検出研究における大きな課題の1つである。
この課題に対処するために、我々はハイレベルなセマンティック・キューを採用し、これらのキューは、目に見えない操作の一般化において、低レベルな焦点を絞ったアプローチをサポートすることができると主張している。
本研究では,感情を高レベルのセマンティックキューとして研究する。
Emo-Boostは、市販のRGBおよび音響指向のディープフェイク検出器と感情に基づくディープフェイク検出器EmoForensicsを融合したマルチモーダルディープフェイク検出フレームワークである。
EmoForensicsは視覚と音声の感情認識モジュールを利用し、音声-視覚ストリームからの感情表現におけるモーダル内およびモーダル間の時間的一貫性をモデル化する。
EmoForensicsと低レベル集束法は相補的な信号をキャプチャすることがわかった。
その結果、EmoBoostにおける両信号の組み合わせにより、FakeAVCeleb上での平均クロスマニピュレーション一般化AUCが2.1%向上する。
関連論文リスト
- SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment [74.05278327933006]
SAVeは,音声・視覚深度検出フレームワークで,映像の完全学習を行う。
SAVEは、タグ付けアーティファクトをエミュレートするために、オンザフライ、アイデンティティ保存、地域対応の自明な擬似操作を生成する。
クロスモーダルな証拠を捉えるために、SAVeはリップ音声同期もモデル化している。
論文 参考訳(メタデータ) (2026-03-26T08:01:35Z) - X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection [17.827028185540467]
微粒な音声・動きのアライメントを符号化した生成系内部のクロスアテンション機構
X-AVDTは、DDIMインバージョンを介してアクセスされたジェネレータ内オーディオ視覚信号をプローブし、これらのキューを公開する。
X-AVDTはMMDF上でのリードパフォーマンスを実現し、外部ベンチマークや目に見えないジェネレータに強く一般化する。
論文 参考訳(メタデータ) (2026-03-09T15:18:42Z) - XAI-Based Detection of Adversarial Attacks on Deepfake Detectors [0.0]
我々は,XAIを用いたディープフェイク検出器に対する敵攻撃を識別するための新しい手法を提案する。
本手法は, ディープフェイクの検出だけでなく, 敵攻撃の可能性に対する理解の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-05T13:25:30Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。