論文の概要: ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection
- arxiv url: http://arxiv.org/abs/2508.17282v1
- Date: Sun, 24 Aug 2025 10:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.444835
- Title: ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection
- Title(参考訳): ERF-BA-TFD+:オーディオ・ビジュアルディープフェイク検出のためのマルチモーダルモデル
- Authors: Xin Zhang, Jiaming Chu, Jian Zhao, Yuchu Jiang, Xu Yang, Lei Jin, Chi Zhang, Xuelong Li,
- Abstract要約: 本稿では,ERFと音声-視覚融合を組み合わせた新しいディープフェイク検出モデルであるERF-BA-TFD+を提案する。
我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。
本研究では,DDL-AVデータセット上でのRF-BA-TFD+の評価を行った。
- 参考スコア(独自算出の注目度): 49.14187862877009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfake detection is a critical task in identifying manipulated multimedia content. In real-world scenarios, deepfake content can manifest across multiple modalities, including audio and video. To address this challenge, we present ERF-BA-TFD+, a novel multimodal deepfake detection model that combines enhanced receptive field (ERF) and audio-visual fusion. Our model processes both audio and video features simultaneously, leveraging their complementary information to improve detection accuracy and robustness. The key innovation of ERF-BA-TFD+ lies in its ability to model long-range dependencies within the audio-visual input, allowing it to better capture subtle discrepancies between real and fake content. In our experiments, we evaluate ERF-BA-TFD+ on the DDL-AV dataset, which consists of both segmented and full-length video clips. Unlike previous benchmarks, which focused primarily on isolated segments, the DDL-AV dataset allows us to assess the model's performance in a more comprehensive and realistic setting. Our method achieves state-of-the-art results on this dataset, outperforming existing techniques in terms of both accuracy and processing speed. The ERF-BA-TFD+ model demonstrated its effectiveness in the "Workshop on Deepfake Detection, Localization, and Interpretability," Track 2: Audio-Visual Detection and Localization (DDL-AV), and won first place in this competition.
- Abstract(参考訳): ディープフェイク検出は、操作されたマルチメディアコンテンツを識別する上で重要なタスクである。
現実のシナリオでは、ディープフェイクコンテンツはオーディオやビデオを含む複数のモードで表示することができる。
この課題に対処するため,ERFと音声・視覚融合を組み合わせた新しいマルチモーダルディープフェイク検出モデルであるRF-BA-TFD+を提案する。
我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。
ERF-BA-TFD+の鍵となる革新は、オーディオ視覚入力内の長距離依存をモデル化できることにある。
本研究では,DDL-AVデータセットにおけるRF-BA-TFD+の評価を行った。
主に分離セグメントに焦点を当てた以前のベンチマークとは異なり、DDL-AVデータセットにより、より包括的で現実的な設定でモデルのパフォーマンスを評価することができる。
提案手法は,精度と処理速度の両面から既存の技術よりも優れる。
ERF-BA-TFD+モデルは,「ディープフェイク検出・局所化・解釈可能性に関するワークショップ」において,その効果を実証し,本大会で優勝した。
関連論文リスト
- Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文 参考訳(メタデータ) (2025-06-09T02:13:04Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。