論文の概要: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- arxiv url: http://arxiv.org/abs/2510.06544v1
- Date: Wed, 08 Oct 2025 00:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.246098
- Title: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- Title(参考訳): フェイク音声発生器レースにおけるフェイク音声検出のベンチマーク
- Authors: Xutao Mao, Ke Li, Cameron Baird, Ezra Xuanru Tao, Dan Lin,
- Abstract要約: 偽音声検出装置の大規模クロスドメイン評価を初めて行った。
我々の研究は、現在の偽音声検出システムにおける重大なセキュリティ脆弱性を明らかにした。
本稿では,多種多様かつしばしば矛盾する評価基準を統合する統一的で効果的な指標を提案する。
- 参考スコア(独自算出の注目度): 5.051497895059242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As advances in synthetic voice generation accelerate, an increasing variety of fake voice generators have emerged, producing audio that is often indistinguishable from real human speech. This evolution poses new and serious threats across sectors where audio recordings serve as critical evidence. Although fake voice detectors are also advancing, the arms race between fake voice generation and detection has become more intense and complex. In this work, we present the first large-scale, cross-domain evaluation of fake voice detectors, benchmarking 8 state-of-the-art models against datasets synthesized by 20 different fake voice generation systems. To the best of our knowledge, this is the most comprehensive cross-domain assessment conducted to date. Our study reveals substantial security vulnerabilities in current fake voice detection systems, underscoring critical gaps in their real-world robustness. To advance the field, we propose a unified and effective metric that consolidates the diverse and often inconsistent evaluation criteria previously used across different studies. This metric enables standardized, straightforward comparisons of the robustness of fake voice detectors. We conclude by offering actionable recommendations for building more resilient fake voice detection technologies, with the broader goal of reinforcing the foundations of AI security and trustworthiness.
- Abstract(参考訳): 合成音声生成の進歩が加速するにつれ、様々な偽音声生成装置が出現し、実際の人間の音声と区別できない音声が生み出されている。
この進化は、オーディオ録音が重要な証拠となる分野にまたがって、新たな深刻な脅威をもたらす。
偽音声検出装置も進歩しているが、偽音声生成と検出の間の武器競争はますます激しさと複雑化している。
本研究では、20種類の偽音声生成システムによって合成されたデータセットに対して、8つの最先端モデルのベンチマークを行い、偽音声検出装置の大規模なクロスドメイン評価を行う。
私たちの知る限りでは、これはこれまでで最も包括的なクロスドメイン評価です。
我々の研究は、現在の偽音声検出システムにおける重大なセキュリティ脆弱性を明らかにし、現実世界の堅牢性において重大なギャップを減らしている。
そこで本研究では,これまでさまざまな研究で用いられてきた多種多様かつしばしば矛盾する評価基準を統合した,統一的で効果的な尺度を提案する。
この測定基準は、偽音声検出器の堅牢性について、標準化された直接比較を可能にする。
私たちは、AIセキュリティと信頼性の基盤を強化することを目的として、よりレジリエントな偽音声検出技術を構築するための実用的な推奨を提供することで、結論付けています。
関連論文リスト
- Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-21T05:43:41Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - VoiceWukong: Benchmarking Deepfake Voice Detection [6.8595368524357285]
本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-10T09:07:12Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。