論文の概要: EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2510.19414v1
- Date: Wed, 22 Oct 2025 09:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.528407
- Title: EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection
- Title(参考訳): EchoFake: 実用的な音声ディープフェイク検出のためのリプレイ対応データセット
- Authors: Tong Zhang, Yihuan Huang, Yanzhen Ren,
- Abstract要約: 13,000人以上の話者から120時間以上のオーディオを収集する総合データセットであるEchoFakeを紹介する。
現実のデプロイメントに関連するより実践的な課題を導入することで、EchoFakeは、スプーフィング検出方法を進めるためのより現実的な基盤を提供する。
- 参考スコア(独自算出の注目度): 20.54516602251383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing prevalence of speech deepfakes has raised serious concerns, particularly in real-world scenarios such as telephone fraud and identity theft. While many anti-spoofing systems have demonstrated promising performance on lab-generated synthetic speech, they often fail when confronted with physical replay attacks-a common and low-cost form of attack used in practical settings. Our experiments show that models trained on existing datasets exhibit severe performance degradation, with average accuracy dropping to 59.6% when evaluated on replayed audio. To bridge this gap, we present EchoFake, a comprehensive dataset comprising more than 120 hours of audio from over 13,000 speakers, featuring both cutting-edge zero-shot text-to-speech (TTS) speech and physical replay recordings collected under varied devices and real-world environmental settings. Additionally, we evaluate three baseline detection models and show that models trained on EchoFake achieve lower average EERs across datasets, indicating better generalization. By introducing more practical challenges relevant to real-world deployment, EchoFake offers a more realistic foundation for advancing spoofing detection methods.
- Abstract(参考訳): 音声のディープフェイクの普及は、特に電話詐欺や身元情報盗難といった現実世界のシナリオにおいて深刻な懸念を引き起こしている。
多くのアンチスプーフィングシステムは、実験室で生成した合成音声に対して有望な性能を示したが、実際の環境で使用される一般的な低コストな攻撃形態である物理的リプレイ攻撃に直面すると、しばしば失敗する。
実験の結果,既存のデータセットでトレーニングしたモデルでは,再生音声で評価すると,平均精度が59.6%に低下した。
このギャップを埋めるために、EchoFakeは、13,000人以上の話者から120時間以上の音声を収集し、最先端のゼロショット音声合成(TTS)音声と、さまざまなデバイスで収集された物理的再生記録と、実際の環境設定の両方を特徴付ける包括的なデータセットである。
さらに、3つのベースライン検出モデルを評価し、EchoFakeでトレーニングされたモデルがデータセット全体の平均EERを低くし、より一般化されたことを示す。
現実のデプロイメントに関連するより実践的な課題を導入することで、EchoFakeは、スプーフィング検出方法を進めるためのより現実的な基盤を提供する。
関連論文リスト
- AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds [38.75029700407531]
AUDETERは大規模で高度に多様なディープフェイクオーディオデータセットである。
これは、最新のTSモデル11と、幅広いTS/vocoderパターンを持つ10のvocoderによって生成される4,500時間以上の合成オーディオで構成されている。
大規模なディープフェイクオーディオデータセットとしては最大である。
論文 参考訳(メタデータ) (2025-09-04T16:03:44Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。