論文の概要: AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds
- arxiv url: http://arxiv.org/abs/2509.04345v1
- Date: Thu, 04 Sep 2025 16:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.215585
- Title: AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds
- Title(参考訳): AUDETER:オープンワールドにおけるディープフェイク音声検出のための大規模データセット
- Authors: Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie,
- Abstract要約: AUDETERは大規模で高度に多様なディープフェイクオーディオデータセットである。
これは、最新のTSモデル11と、幅広いTS/vocoderパターンを持つ10のvocoderによって生成される4,500時間以上の合成オーディオで構成されている。
大規模なディープフェイクオーディオデータセットとしては最大である。
- 参考スコア(独自算出の注目度): 38.75029700407531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech generation systems can produce remarkably realistic vocalisations that are often indistinguishable from human speech, posing significant authenticity challenges. Although numerous deepfake detection methods have been developed, their effectiveness in real-world environments remains unrealiable due to the domain shift between training and test samples arising from diverse human speech and fast evolving speech synthesis systems. This is not adequately addressed by current datasets, which lack real-world application challenges with diverse and up-to-date audios in both real and deep-fake categories. To fill this gap, we introduce AUDETER (AUdio DEepfake TEst Range), a large-scale, highly diverse deepfake audio dataset for comprehensive evaluation and robust development of generalised models for deepfake audio detection. It consists of over 4,500 hours of synthetic audio generated by 11 recent TTS models and 10 vocoders with a broad range of TTS/vocoder patterns, totalling 3 million audio clips, making it the largest deepfake audio dataset by scale. Through extensive experiments with AUDETER, we reveal that i) state-of-the-art (SOTA) methods trained on existing datasets struggle to generalise to novel deepfake audio samples and suffer from high false positive rates on unseen human voice, underscoring the need for a comprehensive dataset; and ii) these methods trained on AUDETER achieve highly generalised detection performance and significantly reduce detection error rate by 44.1% to 51.6%, achieving an error rate of only 4.17% on diverse cross-domain samples in the popular In-the-Wild dataset, paving the way for training generalist deepfake audio detectors. AUDETER is available on GitHub.
- Abstract(参考訳): 音声生成システムは、人間の音声と区別できないような、驚くほどリアルな発声を生成できる。
多くのディープフェイク検出法が開発されているが、多種多様な音声から生じるトレーニングとテストサンプルのドメインシフトと、急速に進化する音声合成システムにより、実際の環境におけるその効果は実現不可能である。
これは現在のデータセットでは適切に対処されていない。リアルタイムとディープフェイクの両方のカテゴリにおいて、多種多様な最新のオーディオによって、現実のアプリケーションの課題が欠如している。
このギャップを埋めるために,我々は大規模かつ多種多様なディープフェイク音声データセットであるAUDETER(AUdio Deepfake TEst Range)を紹介した。
それは、11の最近のTSモデルによって生成された4500時間以上の合成オーディオと、幅広いTS/ヴォコーダパターンを持つ10のボコーダで構成され、合計300万のオーディオクリップで構成されており、大規模なディープフェイクオーディオデータセットとしては最大である。
AUDETERによる広範な実験を通して、我々はそれを明らかにした。
一 既存のデータセットに基づいて訓練された最先端の方法(SOTA)は、新しいディープフェイク音声サンプルの一般化に苦慮し、目に見えない人間の声に対して高い偽陽性率を被り、包括的データセットの必要性を軽視すること。
二 AUDETER で訓練されたこれらの手法は、高度に一般化された検出性能を達成し、検出エラー率を44.1%から51.6%まで大幅に低減し、一般的な In-the-Wild データセットにおける多様なクロスドメインサンプルに対してわずか4.17%の誤差率を達成し、一般のディープフェイクオーディオ検出器の訓練の道を開く。
AUDETERはGitHubで入手できる。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - The DeepSpeak Dataset [11.661238776379115]
DeepSpeakは、100時間以上の本物とディープフェイクのオーディオヴィジュアルコンテンツからなる多種多様なマルチモーダルデータセットである。
i) カスタム構築したデータ収集ツールを用いて500人以上の参加者から収集された50時間以上の実記録データ,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>E</i>,<i>I>I</i>,<i>I</i>,<i>,<i>I</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>I</i>,<i>E</i>,<i>,<i>I</i>,<i>,<i>I</i>,<i>,<i>I</i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,
論文 参考訳(メタデータ) (2024-08-09T22:29:43Z) - The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文 参考訳(メタデータ) (2024-05-08T08:28:40Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。