論文の概要: Can Current Detectors Catch Face-to-Voice Deepfake Attacks?
- arxiv url: http://arxiv.org/abs/2510.21004v1
- Date: Thu, 23 Oct 2025 21:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.323451
- Title: Can Current Detectors Catch Face-to-Voice Deepfake Attacks?
- Title(参考訳): 現在の検知器はディープフェイク攻撃に耐えられるか?
- Authors: Nguyen Linh Bao Nguyen, Alsharif Abuadbba, Kristen Moore, Tingming Wu,
- Abstract要約: FOICEは、音声サンプルを必要とせず、単一の顔画像から被害者の声を生成する。
これは、顔画像が音声サンプルよりも敵が入手しやすいという深刻なセキュリティ上の懸念を引き起こす。
本報告では,FOICE検出の系統的評価を行い,先行検出器が標準条件と雑音条件の両方で連続的に故障することを示す。
- 参考スコア(独自算出の注目度): 6.799303764989023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative models has enabled the creation of increasingly stealthy synthetic voices, commonly referred to as audio deepfakes. A recent technique, FOICE [USENIX'24], demonstrates a particularly alarming capability: generating a victim's voice from a single facial image, without requiring any voice sample. By exploiting correlations between facial and vocal features, FOICE produces synthetic voices realistic enough to bypass industry-standard authentication systems, including WeChat Voiceprint and Microsoft Azure. This raises serious security concerns, as facial images are far easier for adversaries to obtain than voice samples, dramatically lowering the barrier to large-scale attacks. In this work, we investigate two core research questions: (RQ1) can state-of-the-art audio deepfake detectors reliably detect FOICE-generated speech under clean and noisy conditions, and (RQ2) whether fine-tuning these detectors on FOICE data improves detection without overfitting, thereby preserving robustness to unseen voice generators such as SpeechT5. Our study makes three contributions. First, we present the first systematic evaluation of FOICE detection, showing that leading detectors consistently fail under both standard and noisy conditions. Second, we introduce targeted fine-tuning strategies that capture FOICE-specific artifacts, yielding significant accuracy improvements. Third, we assess generalization after fine-tuning, revealing trade-offs between specialization to FOICE and robustness to unseen synthesis pipelines. These findings expose fundamental weaknesses in today's defenses and motivate new architectures and training protocols for next-generation audio deepfake detection.
- Abstract(参考訳): 生成モデルの急速な進歩は、オーディオディープフェイクと呼ばれる、よりステルス性の高い合成音声の作成を可能にした。
最近の技術であるFOICE[USENIX'24]は、音声サンプルを必要とせず、単一の顔画像から被害者の声を生成するという、特に危険な能力を実証している。
顔と声の相関を利用して、FOICEはWeChat VoiceprintやMicrosoft Azureなどの業界標準認証システムをバイパスできるほどリアルな合成音声を生成する。
これは、顔画像が音声サンプルよりもはるかに容易に入手でき、大規模な攻撃の障壁を劇的に減らすため、深刻なセキュリティ上の懸念を引き起こす。
本研究では, (RQ1) がクリーンでノイズの多い条件下でFOICEの生成した音声を確実に検出できること, (RQ2) FOICEデータの微調整により過度に適合することなく検出が改善し,SpeechT5 のような未確認音声生成装置に対する堅牢性を維持すること,の2つの主要な研究課題を考察する。
私たちの研究は3つの貢献をする。
まず, FOICE検出の系統的評価を行い, 先行検出器は標準条件と雑音条件の両方で一貫して故障することを示した。
第2に,FOICE固有のアーティファクトを捕捉し,精度を大幅に向上させる微調整戦略を導入する。
第3に、細調整後の一般化を評価し、FOICEへの特殊化と、目に見えない合成パイプラインへの堅牢性の間のトレードオフを明らかにする。
これらの発見は、今日の防衛における根本的な弱点を明らかにし、次世代オーディオディープフェイク検出のための新しいアーキテクチャとトレーニングプロトコルを動機付けている。
関連論文リスト
- Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race [5.051497895059242]
既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する。
このプラクティスは、メソッド固有のアーティファクトをマスクし、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽する。
我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-08T00:52:06Z) - What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection [7.555970188701627]
我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。
攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。
その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-23T06:06:37Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。