論文の概要: Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues
- arxiv url: http://arxiv.org/abs/2003.06711v3
- Date: Sat, 1 Aug 2020 20:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:12:12.147651
- Title: Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues
- Title(参考訳): Emotions Don't Lie:Affective Cuesを用いたオーディオ・ビジュアルディープフェイク検出法
- Authors: Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera,
Dinesh Manocha
- Abstract要約: 本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
- 参考スコア(独自算出の注目度): 75.1731999380562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a learning-based method for detecting real and fake deepfake
multimedia content. To maximize information for learning, we extract and
analyze the similarity between the two audio and visual modalities from within
the same video. Additionally, we extract and compare affective cues
corresponding to perceived emotion from the two modalities within a video to
infer whether the input video is "real" or "fake". We propose a deep learning
network, inspired by the Siamese network architecture and the triplet loss. To
validate our model, we report the AUC metric on two large-scale deepfake
detection datasets, DeepFake-TIMIT Dataset and DFDC. We compare our approach
with several SOTA deepfake detection methods and report per-video AUC of 84.4%
on the DFDC and 96.6% on the DF-TIMIT datasets, respectively. To the best of
our knowledge, ours is the first approach that simultaneously exploits audio
and video modalities and also perceived emotions from the two modalities for
deepfake detection.
- Abstract(参考訳): 本稿では,実および偽のディープフェイクマルチメディアコンテンツを検出するための学習ベース手法を提案する。
学習のための情報を最大化するために,同じビデオから2つのオーディオと視覚の類似性を抽出し,分析する。
さらに,映像中の2つのモダリティから感情知覚に対応する感情的手がかりを抽出・比較し,入力映像が「リアル」か「フェイク」かを推定する。
本稿では,シームズネットワークアーキテクチャと三重項損失にインスパイアされたディープラーニングネットワークを提案する。
本モデルの有効性を検証するため,大規模深度検出データセットであるDeepFake-TIMIT DatasetとDFDCのAUC測定値について報告する。
我々は,複数のSOTAディープフェイク検出手法とDFDCで84.4%,DF-TIMITデータセットで96.6%の動画AUCとを比較した。
我々の知る限りでは、オーディオとビデオのモダリティを同時に活用する最初のアプローチであり、ディープフェイク検出のための2つのモダリティからの感情も認識する。
関連論文リスト
- A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Unmasking Deepfake Faces from Videos Using An Explainable Cost-Sensitive
Deep Learning Approach [0.0]
ディープフェイク技術は広く使われており、デジタルメディアの信頼性に関する深刻な懸念につながっている。
本研究は,映像中のディープフェイク顔を効果的に検出するために,リソース効率が高く透明なコスト感受性深層学習法を用いている。
論文 参考訳(メタデータ) (2023-12-17T14:57:10Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。