論文の概要: Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework
- arxiv url: http://arxiv.org/abs/2506.07358v1
- Date: Mon, 09 Jun 2025 02:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.779742
- Title: Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework
- Title(参考訳): シングルストリームマルチモーダル学習フレームワークによる軽量共同音声・視覚深度検出
- Authors: Kuiyuan Zhang, Wenjie Pei, Rushi Lan, Yifang Guo, Zhongyun Hua,
- Abstract要約: DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
- 参考スコア(独自算出の注目度): 19.53717894228692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes are AI-synthesized multimedia data that may be abused for spreading misinformation. Deepfake generation involves both visual and audio manipulation. To detect audio-visual deepfakes, previous studies commonly employ two relatively independent sub-models to learn audio and visual features, respectively, and fuse them subsequently for deepfake detection. However, this may underutilize the inherent correlations between audio and visual features. Moreover, utilizing two isolated feature learning sub-models can result in redundant neural layers, making the overall model inefficient and impractical for resource-constrained environments. In this work, we design a lightweight network for audio-visual deepfake detection via a single-stream multi-modal learning framework. Specifically, we introduce a collaborative audio-visual learning block to efficiently integrate multi-modal information while learning the visual and audio features. By iteratively employing this block, our single-stream network achieves a continuous fusion of multi-modal features across its layers. Thus, our network efficiently captures visual and audio features without the need for excessive block stacking, resulting in a lightweight network design. Furthermore, we propose a multi-modal classification module that can boost the dependence of the visual and audio classifiers on modality content. It also enhances the whole resistance of the video classifier against the mismatches between audio and visual modalities. We conduct experiments on the DF-TIMIT, FakeAVCeleb, and DFDC benchmark datasets. Compared to state-of-the-art audio-visual joint detection methods, our method is significantly lightweight with only 0.48M parameters, yet it achieves superiority in both uni-modal and multi-modal deepfakes, as well as in unseen types of deepfakes.
- Abstract(参考訳): DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
ディープフェイク生成には、視覚とオーディオの両方の操作が含まれる。
オーディオ・ビジュアル・ディープフェイクを検出するために、従来の研究では2つの比較的独立したサブモデルを用いて、それぞれ音声と視覚の特徴を学習し、その後、ディープフェイク検出のために融合した。
しかし、これは音声と視覚的特徴の固有の相関を過小評価する可能性がある。
さらに、2つの独立した特徴学習サブモデルを利用することで、冗長なニューラルネットワーク層が生まれ、全体的なモデルがリソース制約のある環境では非効率で非実用的になる。
本研究では,単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを設計する。
具体的には,視覚的特徴と音声的特徴を学習しながら,マルチモーダル情報を効率的に統合するための協調型視覚学習ブロックを提案する。
このブロックを反復的に使用することにより、当社のシングルストリームネットワークは、その層にまたがるマルチモーダル機能の連続的な融合を実現する。
これにより、過剰なブロック積み重ねを必要とせず、視覚的・音声的特徴を効率よく捉え、軽量なネットワーク設計を実現することができる。
さらに,モーダルコンテンツに対する視覚的・音声的分類器の依存性を高めるマルチモーダル分類モジュールを提案する。
また、ビデオ分類器の全抵抗を、オーディオと視覚のモダリティのミスマッチに対して強化する。
DF-TIMIT、FakeAVCeleb、DFDCベンチマークデータセットについて実験を行った。
現状の音声・視覚的関節検出法と比較すると,本手法は0.48Mパラメータしか持たないが,一様・多モードのディープフェイクでも,見知らぬタイプのディープフェイクでも優れる。
関連論文リスト
- Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。