論文の概要: Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues
- arxiv url: http://arxiv.org/abs/2003.06711v3
- Date: Sat, 1 Aug 2020 20:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:12:12.147651
- Title: Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues
- Title(参考訳): Emotions Don't Lie:Affective Cuesを用いたオーディオ・ビジュアルディープフェイク検出法
- Authors: Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera,
Dinesh Manocha
- Abstract要約: 本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
- 参考スコア(独自算出の注目度): 75.1731999380562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a learning-based method for detecting real and fake deepfake
multimedia content. To maximize information for learning, we extract and
analyze the similarity between the two audio and visual modalities from within
the same video. Additionally, we extract and compare affective cues
corresponding to perceived emotion from the two modalities within a video to
infer whether the input video is "real" or "fake". We propose a deep learning
network, inspired by the Siamese network architecture and the triplet loss. To
validate our model, we report the AUC metric on two large-scale deepfake
detection datasets, DeepFake-TIMIT Dataset and DFDC. We compare our approach
with several SOTA deepfake detection methods and report per-video AUC of 84.4%
on the DFDC and 96.6% on the DF-TIMIT datasets, respectively. To the best of
our knowledge, ours is the first approach that simultaneously exploits audio
and video modalities and also perceived emotions from the two modalities for
deepfake detection.
- Abstract(参考訳): 本稿では,実および偽のディープフェイクマルチメディアコンテンツを検出するための学習ベース手法を提案する。
学習のための情報を最大化するために,同じビデオから2つのオーディオと視覚の類似性を抽出し,分析する。
さらに,映像中の2つのモダリティから感情知覚に対応する感情的手がかりを抽出・比較し,入力映像が「リアル」か「フェイク」かを推定する。
本稿では,シームズネットワークアーキテクチャと三重項損失にインスパイアされたディープラーニングネットワークを提案する。
本モデルの有効性を検証するため,大規模深度検出データセットであるDeepFake-TIMIT DatasetとDFDCのAUC測定値について報告する。
我々は,複数のSOTAディープフェイク検出手法とDFDCで84.4%,DF-TIMITデータセットで96.6%の動画AUCとを比較した。
我々の知る限りでは、オーディオとビデオのモダリティを同時に活用する最初のアプローチであり、ディープフェイク検出のための2つのモダリティからの感情も認識する。
関連論文リスト
- Unmasking Deepfake Faces from Videos Using An Explainable Cost-Sensitive
Deep Learning Approach [0.0]
ディープフェイク技術は広く使われており、デジタルメディアの信頼性に関する深刻な懸念につながっている。
本研究は,映像中のディープフェイク顔を効果的に検出するために,リソース効率が高く透明なコスト感受性深層学習法を用いている。
論文 参考訳(メタデータ) (2023-12-17T14:57:10Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - A Convolutional LSTM based Residual Network for Deepfake Video Detection [23.275080108063406]
我々は、深層ビデオを検出するための畳み込みLSTMベースのResidual Network(CLRNet)を開発した。
また,異なるディープフェイク手法を一般化するための伝達学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T05:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。