論文の概要: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- arxiv url: http://arxiv.org/abs/2510.06544v2
- Date: Fri, 17 Oct 2025 03:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.749185
- Title: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- Title(参考訳): フェイク音声発生器レースにおけるフェイク音声検出のベンチマーク
- Authors: Xutao Mao, Ke Li, Cameron Baird, Ezra Xuanru Tao, Dan Lin,
- Abstract要約: 既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する。
このプラクティスは、メソッド固有のアーティファクトをマスクし、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽する。
我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
- 参考スコア(独自算出の注目度): 5.051497895059242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of fake voice generation technology has ignited a race with detection systems, creating an urgent need to secure the audio ecosystem. However, existing benchmarks suffer from a critical limitation: they typically aggregate diverse fake voice samples into a single dataset for evaluation. This practice masks method-specific artifacts and obscures the varying performance of detectors against different generation paradigms, preventing a nuanced understanding of their true vulnerabilities. To address this gap, we introduce the first ecosystem-level benchmark that systematically evaluates the interplay between 17 state-of-the-art fake voice generators and 8 leading detectors through a novel one-to-one evaluation protocol. This fine-grained analysis exposes previously hidden vulnerabilities and sensitivities that are missed by traditional aggregated testing. We also propose unified scoring systems to quantify both the evasiveness of generators and the robustness of detectors, enabling fair and direct comparisons. Our extensive cross-domain evaluation reveals that modern generators, particularly those based on neural audio codecs and flow matching, consistently evade top-tier detectors. We found that no single detector is universally robust; their effectiveness varies dramatically depending on the generator's architecture, highlighting a significant generalization gap in current defenses. This work provides a more realistic assessment of the threat landscape and offers actionable insights for building the next generation of detection systems.
- Abstract(参考訳): フェイク音声生成技術の急速な進歩は、検出システムとの競争に火をつけ、オーディオエコシステムの確保に緊急の必要性を生み出した。
しかしながら、既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する、という重大な制限が課されている。
このプラクティスは、メソッド固有のアーティファクトを隠蔽し、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽し、真の脆弱性の微妙な理解を妨げる。
このギャップに対処するために,我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
このきめ細かい分析は、従来の集計テストで見逃された、これまで隠されていた脆弱性と感受性を明らかにする。
また,発電機の回避性と検出器の堅牢性の両方を定量化する統合スコアリングシステムを提案し,公正かつ直接的な比較を可能にした。
我々のクロスドメイン評価は、現代のジェネレータ、特にニューラルオーディオコーデックとフローマッチングに基づくものが、トップ層検出器を一貫して回避していることを示している。
一つの検出器が普遍的に堅牢であることは見出され、その有効性はジェネレータのアーキテクチャによって劇的に変化し、現在の防御における大きな一般化のギャップを浮き彫りにしている。
この研究は脅威の風景をより現実的に評価し、次世代の検知システムを構築するための実用的な洞察を提供する。
関連論文リスト
- Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-21T05:43:41Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - VoiceWukong: Benchmarking Deepfake Voice Detection [6.8595368524357285]
本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-10T09:07:12Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。