論文の概要: FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset
- arxiv url: http://arxiv.org/abs/2108.05080v1
- Date: Wed, 11 Aug 2021 07:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:20:07.850934
- Title: FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset
- Title(参考訳): FakeAVCeleb:新しいオーディオビデオマルチモーダルディープフェイクデータセット
- Authors: Hasam Khalid and Shahroz Tariq and Simon S. Woo
- Abstract要約: 近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
- 参考スコア(独自算出の注目度): 21.199288324085444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the significant advancements made in generation of forged video and
audio, commonly known as deepfakes, using deep learning technologies, the
problem of its misuse is a well-known issue now. Recently, a new problem of
generating cloned or synthesized human voice of a person is emerging. AI-based
deep learning models can synthesize any person's voice requiring just a few
seconds of audio. With the emerging threat of impersonation attacks using
deepfake videos and audios, new deepfake detectors are need that focuses on
both, video and audio. Detecting deepfakes is a challenging task and
researchers have made numerous attempts and proposed several deepfake detection
methods. To develop a good deepfake detector, a handsome amount of good quality
dataset is needed that captures the real world scenarios. Many researchers have
contributed in this cause and provided several deepfake dataset, self generated
and in-the-wild. However, almost all of these datasets either contains deepfake
videos or audio. Moreover, the recent deepfake datasets proposed by researchers
have racial bias issues. Hence, there is a crucial need of a good deepfake
video and audio deepfake dataset. To fill this gap, we propose a novel
Audio-Video Deepfake dataset (FakeAVCeleb) that not only contains deepfake
videos but respective synthesized cloned audios as well. We generated our
dataset using recent most popular deepfake generation methods and the videos
and audios are perfectly lip-synced with each other. To generate a more
realistic dataset, we selected real YouTube videos of celebrities having four
racial backgrounds (Caucasian, Black, East Asian and South Asian) to counter
the racial bias issue. Lastly, we propose a novel multimodal detection method
that detects deepfake videos and audios based on our multimodal Audio-Video
deepfake dataset.
- Abstract(参考訳): ディープフェイク(deepfakes)と呼ばれる偽造ビデオやオーディオの生成において、ディープラーニング技術を使用した大きな進歩があるため、その誤用の問題は現在よく知られた問題である。
近年,人間のクローン音声や合成音声を生成する新たな課題が浮上している。
AIベースのディープラーニングモデルは、わずか数秒のオーディオを必要とする人の声を合成することができる。
ディープフェイクビデオとオーディオを使った偽装攻撃の脅威が出現する中、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検出器が必要である。
ディープフェイクの検出は難しい作業であり、研究者は数多くの試みを行い、いくつかのディープフェイク検出方法を提案した。
優れたディープフェイク検出器を開発するには、現実世界のシナリオをキャプチャする、かなり高品質なデータセットが必要です。
多くの研究者がこの原因に寄与し、いくつかのディープフェイクデータセット、自己生成、そしてその内在性を提供した。
しかし、これらのデータセットのほとんどがディープフェイクビデオかオーディオを含んでいる。
さらに、研究者が最近提案したdeepfakeデータセットには、人種的バイアスがある。
したがって、優れたディープフェイクビデオとオーディオのディープフェイクデータセットが必要である。
このギャップを埋めるために,我々は,deepfakeビデオだけでなく,合成された各クローン音声も含む新しいオーディオビデオdeepfakeデータセット(fakeavceleb)を提案する。
私たちは最近最も人気のあるdeepfake生成手法を使ってデータセットを作成し、ビデオとオーディオは完全にリップシンクされます。
より現実的なデータセットを生成するために、人種的偏見問題に対処するために4つの人種的背景(白人、黒人、東アジア、南アジア)を持つ有名人のYouTubeビデオを選択しました。
最後に,我々は,マルチモーダル・オーディオ・ビデオ・ディープフェイクデータセットに基づいて,ディープフェイク映像とオーディオを検出する新しいマルチモーダル検出手法を提案する。
関連論文リスト
- Hindi audio-video-Deepfake (HAV-DF): A Hindi language-based Audio-video Deepfake Dataset [11.164272928464879]
ヒンディー語でのフェイクビデオやスピーチは、農村部や半都市部に多大な影響を及ぼす可能性がある。
本論文は,Hindi Audio-video-Deepfake'(HAV-DF)という,ヒンディー語による新しいディープフェイクデータセットを作成することを目的とする。
論文 参考訳(メタデータ) (2024-11-23T05:18:43Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - DeePhy: On Deepfake Phylogeny [58.01631614114075]
DeePhyは、新しいDeepfake Phylogenyデータセットである。
6つのディープフェイク検出アルゴリズムを用いて,DeePhyデータセットのベンチマークを示す。
論文 参考訳(メタデータ) (2022-09-19T15:30:33Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey [0.0]
本稿は、2016年から2020年にかけてのオーディオディープフェイク研究を批判的に分析し、提供する。
このサーベイでは、1)異なるディープフェイクカテゴリ、2)どのように作成され、検出されるか、3)この領域における最新のトレンドと検出方法の欠点について、読者に要約する。
この結果から,GAN(Generative Adversarial Networks),CNN(Convolutional Neural Networks),DNN(Deep Neural Networks)がディープフェイクの生成と検出の一般的な方法であることが判明した。
論文 参考訳(メタデータ) (2021-11-28T18:28:30Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z) - Deepfake detection: humans vs. machines [4.485016243130348]
クラウドソーシングのようなシナリオで実施した主観的研究で,ビデオがディープフェイクであるか否かを人間が確認することがいかに困難であるかを体系的に評価する。
各ビデオについて、簡単な質問は「ビデオの中の人物の顔は偽物か?」というものだった。
この評価は、人間の知覚が機械の知覚とは大きく異なるが、成功しても異なる方法ではディープフェイクに騙されることを示した。
論文 参考訳(メタデータ) (2020-09-07T15:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。