論文の概要: Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors
- arxiv url: http://arxiv.org/abs/2109.02993v1
- Date: Tue, 7 Sep 2021 11:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:25:03.706403
- Title: Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors
- Title(参考訳): ユニモーダルおよびマルチモーダル検出器を用いたオーディオビデオマルチモーダルディープフェイクデータセットの評価
- Authors: Hasam Khalid and Minha Kim and Shahroz Tariq and Simon S. Woo
- Abstract要約: ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
- 参考スコア(独自算出の注目度): 18.862258543488355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements made in the generation of deepfakes have caused
security and privacy issues. Attackers can easily impersonate a person's
identity in an image by replacing his face with the target person's face.
Moreover, a new domain of cloning human voices using deep-learning technologies
is also emerging. Now, an attacker can generate realistic cloned voices of
humans using only a few seconds of audio of the target person. With the
emerging threat of potential harm deepfakes can cause, researchers have
proposed deepfake detection methods. However, they only focus on detecting a
single modality, i.e., either video or audio. On the other hand, to develop a
good deepfake detector that can cope with the recent advancements in deepfake
generation, we need to have a detector that can detect deepfakes of multiple
modalities, i.e., videos and audios. To build such a detector, we need a
dataset that contains video and respective audio deepfakes. We were able to
find a most recent deepfake dataset, Audio-Video Multimodal Deepfake Detection
Dataset (FakeAVCeleb), that contains not only deepfake videos but synthesized
fake audios as well. We used this multimodal deepfake dataset and performed
detailed baseline experiments using state-of-the-art unimodal, ensemble-based,
and multimodal detection methods to evaluate it. We conclude through detailed
experimentation that unimodals, addressing only a single modality, video or
audio, do not perform well compared to ensemble-based methods. Whereas purely
multimodal-based baselines provide the worst performance.
- Abstract(参考訳): ディープフェイクの世代における重要な進歩は、セキュリティとプライバシの問題を引き起こした。
攻撃者は、顔を相手の顔に置き換えることで、画像中の人物の身元を容易に偽装することができる。
さらに、ディープラーニング技術を用いた人間の声のクローン化の新しい領域も出現している。
現在、攻撃者はターゲットの音声を数秒で生成して、人間の現実的なクローン音声を生成することができる。
ディープフェイクの危険性が高まっているため、研究者はディープフェイク検出法を提案している。
しかし、それらは単一のモダリティ、すなわちビデオまたはオーディオを検出することのみに焦点を当てている。
一方で、ディープフェイク生成の最近の進歩に対応可能な優れたディープフェイク検出器を開発するには、複数のモード、例えばビデオやオーディオのディープフェイクを検出するための検出器が必要である。
このような検出器を構築するには、ビデオと各オーディオディープフェイクを含むデータセットが必要です。
私たちは、最新のディープフェイクデータセットであるAudio-Video Multimodal Deepfake Detection Dataset (FakeAVCeleb)を見つけました。
このマルチモーダルなディープフェイクデータセットを用いて,最先端のユニモーダル,アンサンブルベース,マルチモーダル検出法を用いて,詳細なベースライン実験を行った。
我々は,単一モダリティ,ビデオ,音声のみを扱うユニモーダルが,アンサンブル方式に比べてよく機能しないという詳細な実験を通じて結論づける。
純粋にマルチモーダルベースのベースラインは最悪のパフォーマンスを提供する。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset [21.199288324085444]
近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:49:36Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。