論文の概要: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- arxiv url: http://arxiv.org/abs/2510.06544v1
- Date: Wed, 08 Oct 2025 00:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.246098
- Title: Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race
- Title(参考訳): フェイク音声発生器レースにおけるフェイク音声検出のベンチマーク
- Authors: Xutao Mao, Ke Li, Cameron Baird, Ezra Xuanru Tao, Dan Lin,
- Abstract要約: 偽音声検出装置の大規模クロスドメイン評価を初めて行った。
我々の研究は、現在の偽音声検出システムにおける重大なセキュリティ脆弱性を明らかにした。
本稿では,多種多様かつしばしば矛盾する評価基準を統合する統一的で効果的な指標を提案する。
- 参考スコア(独自算出の注目度): 5.051497895059242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As advances in synthetic voice generation accelerate, an increasing variety of fake voice generators have emerged, producing audio that is often indistinguishable from real human speech. This evolution poses new and serious threats across sectors where audio recordings serve as critical evidence. Although fake voice detectors are also advancing, the arms race between fake voice generation and detection has become more intense and complex. In this work, we present the first large-scale, cross-domain evaluation of fake voice detectors, benchmarking 8 state-of-the-art models against datasets synthesized by 20 different fake voice generation systems. To the best of our knowledge, this is the most comprehensive cross-domain assessment conducted to date. Our study reveals substantial security vulnerabilities in current fake voice detection systems, underscoring critical gaps in their real-world robustness. To advance the field, we propose a unified and effective metric that consolidates the diverse and often inconsistent evaluation criteria previously used across different studies. This metric enables standardized, straightforward comparisons of the robustness of fake voice detectors. We conclude by offering actionable recommendations for building more resilient fake voice detection technologies, with the broader goal of reinforcing the foundations of AI security and trustworthiness.
- Abstract(参考訳): 合成音声生成の進歩が加速するにつれ、様々な偽音声生成装置が出現し、実際の人間の音声と区別できない音声が生み出されている。
この進化は、オーディオ録音が重要な証拠となる分野にまたがって、新たな深刻な脅威をもたらす。
偽音声検出装置も進歩しているが、偽音声生成と検出の間の武器競争はますます激しさと複雑化している。
本研究では、20種類の偽音声生成システムによって合成されたデータセットに対して、8つの最先端モデルのベンチマークを行い、偽音声検出装置の大規模なクロスドメイン評価を行う。
私たちの知る限りでは、これはこれまでで最も包括的なクロスドメイン評価です。
我々の研究は、現在の偽音声検出システムにおける重大なセキュリティ脆弱性を明らかにし、現実世界の堅牢性において重大なギャップを減らしている。
そこで本研究では,これまでさまざまな研究で用いられてきた多種多様かつしばしば矛盾する評価基準を統合した,統一的で効果的な尺度を提案する。
この測定基準は、偽音声検出器の堅牢性について、標準化された直接比較を可能にする。
私たちは、AIセキュリティと信頼性の基盤を強化することを目的として、よりレジリエントな偽音声検出技術を構築するための実用的な推奨を提供することで、結論付けています。
関連論文リスト
- Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。
凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。
トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文 参考訳(メタデータ) (2025-11-27T14:01:50Z) - Can Current Detectors Catch Face-to-Voice Deepfake Attacks? [6.799303764989023]
FOICEは、音声サンプルを必要とせず、単一の顔画像から被害者の声を生成する。
これは、顔画像が音声サンプルよりも敵が入手しやすいという深刻なセキュリティ上の懸念を引き起こす。
本報告では,FOICE検出の系統的評価を行い,先行検出器が標準条件と雑音条件の両方で連続的に故障することを示す。
論文 参考訳(メタデータ) (2025-10-23T21:24:55Z) - Why Speech Deepfake Detectors Won't Generalize: The Limits of Detection in an Open World [11.238970239267248]
音声ディープフェイク検出器は、しばしばクリーンでベンチマークスタイルの条件で評価される。
しかしデプロイメントは、デバイスのシフト、サンプリング率、コーデック、環境、攻撃家族といったオープンな世界で発生します。
これにより、AIベースの検出器に対する"カバレッジ負債"が発生し、収集可能なデータよりも高速に成長するデータ盲点が生成される。
論文 参考訳(メタデータ) (2025-09-23T20:27:04Z) - Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-21T05:43:41Z) - Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T11:15:22Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - VoiceWukong: Benchmarking Deepfake Voice Detection [6.8595368524357285]
本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-10T09:07:12Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - SoK: Systematization and Benchmarking of Deepfake Detectors in a Unified Framework [32.31180075214162]
本稿は、最先端のディープフェイク検出器を広範囲にレビューし、分析し、いくつかの臨界基準で評価する。
これらの基準は、検出器を4つの高レベルなグループと13のきめ細かいサブグループに分類し、統一された概念的枠組みと整合する。
我々は,ブラックボックス,ホワイトボックス,グレーボックスの設定を含む包括的攻撃シナリオにおいて,16個の主要検出器の一般化可能性を評価する。
論文 参考訳(メタデータ) (2024-01-09T05:32:22Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - On the Detection of Adaptive Adversarial Attacks in Speaker Verification
Systems [0.0]
FAKEBOBのような敵攻撃は、話者認証システムに対して効果的に機能する。
本研究の目的は,敵対的攻撃によって汚染された音声からオリジナル音声を識別できる検出器を設計することである。
提案する検出器は実装が容易で,入力オーディオを高速に処理でき,FAKEBOB攻撃による音声の破損の有無を判定する上で有効であることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:02:06Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。