論文の概要: XMAD-Bench: Cross-Domain Multilingual Audio Deepfake Benchmark
- arxiv url: http://arxiv.org/abs/2506.00462v1
- Date: Sat, 31 May 2025 08:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.089273
- Title: XMAD-Bench: Cross-Domain Multilingual Audio Deepfake Benchmark
- Title(参考訳): XMAD-Bench: クロスドメインマルチ言語オーディオディープフェイクベンチマーク
- Authors: Ioan-Paul Ciobanu, Andrei-Iulian Hiji, Nicolae-Catalin Ristea, Paul Irofti, Cristian Rusu, Radu Tudor Ionescu,
- Abstract要約: XMAD-Bench (XMAD-Bench) は、668.8時間のリアルタイムおよびディープフェイク音声を含む大規模クロスドメイン多言語オーディオディープフェイクベンチマークである。
我々のベンチマークでは、堅牢なオーディオディープフェイク検出器の開発の必要性を強調している。
- 参考スコア(独自算出の注目度): 28.171858958370947
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in audio generation led to an increasing number of deepfakes, making the general public more vulnerable to financial scams, identity theft, and misinformation. Audio deepfake detectors promise to alleviate this issue, with many recent studies reporting accuracy rates close to 99%. However, these methods are typically tested in an in-domain setup, where the deepfake samples from the training and test sets are produced by the same generative models. To this end, we introduce XMAD-Bench, a large-scale cross-domain multilingual audio deepfake benchmark comprising 668.8 hours of real and deepfake speech. In our novel dataset, the speakers, the generative methods, and the real audio sources are distinct across training and test splits. This leads to a challenging cross-domain evaluation setup, where audio deepfake detectors can be tested ``in the wild''. Our in-domain and cross-domain experiments indicate a clear disparity between the in-domain performance of deepfake detectors, which is usually as high as 100%, and the cross-domain performance of the same models, which is sometimes similar to random chance. Our benchmark highlights the need for the development of robust audio deepfake detectors, which maintain their generalization capacity across different languages, speakers, generative methods, and data sources. Our benchmark is publicly released at https://github.com/ristea/xmad-bench/.
- Abstract(参考訳): 近年の音声生成の進歩により、ディープフェイクが増加し、一般大衆は金融詐欺、アイデンティティ盗難、誤情報に対してより脆弱になった。
オーディオディープフェイク検出器はこの問題を緩和し、最近の多くの研究で99%近い精度を報告している。
しかし、これらの手法は通常ドメイン内の設定でテストされ、トレーニングとテストセットからのディープフェイクサンプルは同じ生成モデルによって生成される。
この目的のために、XMAD-Benchは668.8時間のリアルタイム・ディープフェイク音声を含む大規模クロスドメイン多言語オーディオディープフェイクベンチマークである。
新たなデータセットでは、話者、生成方法、および実際の音源は、トレーニングとテストの分割によって異なる。
これは、オーディオディープフェイク検出を‘in the wild’’でテストする、難しいクロスドメイン評価設定につながります。
我々のドメイン内およびクロスドメイン実験は、通常100%高いディープフェイク検出器のドメイン内性能と、しばしばランダムな確率に類似した同じモデルのドメイン間性能との明らかな相違を示している。
我々のベンチマークでは、様々な言語、話者、生成方法、データソースにまたがる一般化能力を維持する、堅牢なオーディオディープフェイク検出器の開発の必要性を強調している。
私たちのベンチマークはhttps://github.com/ristea/xmad-bench/で公開されています。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。
偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。
我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-11-29T08:29:25Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。