論文の概要: VoiceWukong: Benchmarking Deepfake Voice Detection
- arxiv url: http://arxiv.org/abs/2409.06348v1
- Date: Tue, 10 Sep 2024 09:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:19:52.487991
- Title: VoiceWukong: Benchmarking Deepfake Voice Detection
- Title(参考訳): VoiceWukong: ディープフェイク音声検出のベンチマーク
- Authors: Ziwei Yan, Yanjie Zhao, Haoyu Wang,
- Abstract要約: 本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
- 参考スコア(独自算出の注目度): 6.8595368524357285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of technologies like text-to-speech (TTS) and voice conversion (VC), detecting deepfake voices has become increasingly crucial. However, both academia and industry lack a comprehensive and intuitive benchmark for evaluating detectors. Existing datasets are limited in language diversity and lack many manipulations encountered in real-world production environments. To fill this gap, we propose VoiceWukong, a benchmark designed to evaluate the performance of deepfake voice detectors. To build the dataset, we first collected deepfake voices generated by 19 advanced and widely recognized commercial tools and 15 open-source tools. We then created 38 data variants covering six types of manipulations, constructing the evaluation dataset for deepfake voice detection. VoiceWukong thus includes 265,200 English and 148,200 Chinese deepfake voice samples. Using VoiceWukong, we evaluated 12 state-of-the-art detectors. AASIST2 achieved the best equal error rate (EER) of 13.50%, while all others exceeded 20%. Our findings reveal that these detectors face significant challenges in real-world applications, with dramatically declining performance. In addition, we conducted a user study with more than 300 participants. The results are compared with the performance of the 12 detectors and a multimodel large language model (MLLM), i.e., Qwen2-Audio, where different detectors and humans exhibit varying identification capabilities for deepfake voices at different deception levels, while the LALM demonstrates no detection ability at all. Furthermore, we provide a leaderboard for deepfake voice detection, publicly available at {https://voicewukong.github.io}.
- Abstract(参考訳): テキスト音声(TTS)や音声変換(VC)といった技術が急速に進歩し、ディープフェイク音声の検出がますます重要になっている。
しかし、学術と産業の両方では、検出器を評価するための総合的で直感的なベンチマークが欠落している。
既存のデータセットは言語の多様性に制限があり、現実のプロダクション環境で発生する多くの操作が欠如している。
このギャップを埋めるために、ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを提案する。
データセットを構築するために、私たちはまず19の高度で広く認識されている商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
VoiceWukongには265,200の英語と148,200の中国語のディープフェイク音声サンプルが含まれている。
VoiceWukongを用いて12個の最先端検出器を評価した。
AASIST2は13.50%の誤差率(EER)を達成し、その他の全てのエラーは20%を超えた。
その結果,これらの検出器は実世界の応用において重大な課題に直面しており,性能は劇的に低下していることがわかった。
また,300名以上の参加者を対象にユーザスタディを実施した。
結果は、12の検出器と、Qwen2-Audioと呼ばれる多モデル大言語モデル(MLLM)の性能と比較される。
さらに、ディープフェイク音声検出のためのリーダーボード(https://voicewukong.github.io})も公開しています。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - On the pragmatism of using binary classifiers over data intensive neural
network classifiers for detection of COVID-19 from voice [34.553128768223615]
音声からCOVID-19を検出するには、カスタムメイドの非標準機能や複雑なニューラルネットワーク分類器を必要としない。
臨床現場で収集・校正された人為的なデータセットからこれを実証する。
論文 参考訳(メタデータ) (2022-04-11T00:19:14Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Does Audio Deepfake Detection Generalize? [6.415366195115544]
我々は、関連する作業からアーキテクチャを再実装し、一様に評価することで、音声スプーフィング検出をシステム化する。
有名人や政治家のオーディオ録音を37.9時間記録したデータセットを新たに公開し、そのうち17.2時間がディープフェイクである。
これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。
論文 参考訳(メタデータ) (2022-03-30T12:48:22Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。