論文の概要: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- arxiv url: http://arxiv.org/abs/2510.06544v2
- Date: Fri, 17 Oct 2025 03:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.749185
- Title: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- Title(参考訳): フェイク音声発生器レースにおけるフェイク音声検出のベンチマーク
- Authors: Xutao Mao, Ke Li, Cameron Baird, Ezra Xuanru Tao, Dan Lin,
- Abstract要約: 既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する。
このプラクティスは、メソッド固有のアーティファクトをマスクし、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽する。
我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
- 参考スコア(独自算出の注目度): 5.051497895059242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of fake voice generation technology has ignited a race with detection systems, creating an urgent need to secure the audio ecosystem. However, existing benchmarks suffer from a critical limitation: they typically aggregate diverse fake voice samples into a single dataset for evaluation. This practice masks method-specific artifacts and obscures the varying performance of detectors against different generation paradigms, preventing a nuanced understanding of their true vulnerabilities. To address this gap, we introduce the first ecosystem-level benchmark that systematically evaluates the interplay between 17 state-of-the-art fake voice generators and 8 leading detectors through a novel one-to-one evaluation protocol. This fine-grained analysis exposes previously hidden vulnerabilities and sensitivities that are missed by traditional aggregated testing. We also propose unified scoring systems to quantify both the evasiveness of generators and the robustness of detectors, enabling fair and direct comparisons. Our extensive cross-domain evaluation reveals that modern generators, particularly those based on neural audio codecs and flow matching, consistently evade top-tier detectors. We found that no single detector is universally robust; their effectiveness varies dramatically depending on the generator's architecture, highlighting a significant generalization gap in current defenses. This work provides a more realistic assessment of the threat landscape and offers actionable insights for building the next generation of detection systems.
- Abstract(参考訳): フェイク音声生成技術の急速な進歩は、検出システムとの競争に火をつけ、オーディオエコシステムの確保に緊急の必要性を生み出した。
しかしながら、既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する、という重大な制限が課されている。
このプラクティスは、メソッド固有のアーティファクトを隠蔽し、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽し、真の脆弱性の微妙な理解を妨げる。
このギャップに対処するために,我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
このきめ細かい分析は、従来の集計テストで見逃された、これまで隠されていた脆弱性と感受性を明らかにする。
また,発電機の回避性と検出器の堅牢性の両方を定量化する統合スコアリングシステムを提案し,公正かつ直接的な比較を可能にした。
我々のクロスドメイン評価は、現代のジェネレータ、特にニューラルオーディオコーデックとフローマッチングに基づくものが、トップ層検出器を一貫して回避していることを示している。
一つの検出器が普遍的に堅牢であることは見出され、その有効性はジェネレータのアーキテクチャによって劇的に変化し、現在の防御における大きな一般化のギャップを浮き彫りにしている。
この研究は脅威の風景をより現実的に評価し、次世代の検知システムを構築するための実用的な洞察を提供する。
関連論文リスト
- Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。
凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。
トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文 参考訳(メタデータ) (2025-11-27T14:01:50Z) - Can Current Detectors Catch Face-to-Voice Deepfake Attacks? [6.799303764989023]
FOICEは、音声サンプルを必要とせず、単一の顔画像から被害者の声を生成する。
これは、顔画像が音声サンプルよりも敵が入手しやすいという深刻なセキュリティ上の懸念を引き起こす。
本報告では,FOICE検出の系統的評価を行い,先行検出器が標準条件と雑音条件の両方で連続的に故障することを示す。
論文 参考訳(メタデータ) (2025-10-23T21:24:55Z) - Why Speech Deepfake Detectors Won't Generalize: The Limits of Detection in an Open World [11.238970239267248]
音声ディープフェイク検出器は、しばしばクリーンでベンチマークスタイルの条件で評価される。
しかしデプロイメントは、デバイスのシフト、サンプリング率、コーデック、環境、攻撃家族といったオープンな世界で発生します。
これにより、AIベースの検出器に対する"カバレッジ負債"が発生し、収集可能なデータよりも高速に成長するデータ盲点が生成される。
論文 参考訳(メタデータ) (2025-09-23T20:27:04Z) - Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-21T05:43:41Z) - Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T11:15:22Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - VoiceWukong: Benchmarking Deepfake Voice Detection [6.8595368524357285]
本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-10T09:07:12Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - SoK: Systematization and Benchmarking of Deepfake Detectors in a Unified Framework [32.31180075214162]
本稿は、最先端のディープフェイク検出器を広範囲にレビューし、分析し、いくつかの臨界基準で評価する。
これらの基準は、検出器を4つの高レベルなグループと13のきめ細かいサブグループに分類し、統一された概念的枠組みと整合する。
我々は,ブラックボックス,ホワイトボックス,グレーボックスの設定を含む包括的攻撃シナリオにおいて,16個の主要検出器の一般化可能性を評価する。
論文 参考訳(メタデータ) (2024-01-09T05:32:22Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - On the Detection of Adaptive Adversarial Attacks in Speaker Verification
Systems [0.0]
FAKEBOBのような敵攻撃は、話者認証システムに対して効果的に機能する。
本研究の目的は,敵対的攻撃によって汚染された音声からオリジナル音声を識別できる検出器を設計することである。
提案する検出器は実装が容易で,入力オーディオを高速に処理でき,FAKEBOB攻撃による音声の破損の有無を判定する上で有効であることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:02:06Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。