論文の概要: What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection
- arxiv url: http://arxiv.org/abs/2505.17513v1
- Date: Fri, 23 May 2025 06:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.86126
- Title: What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection
- Title(参考訳): 耳に聞こえないもの:ディープフェイク音声検出における言語感度
- Authors: Binh Nguyen, Shuji Shi, Ryan Ofman, Thai Le,
- Abstract要約: 我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。
攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。
その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 7.555970188701627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-speech technologies have enabled realistic voice generation, fueling audio-based deepfake attacks such as fraud and impersonation. While audio anti-spoofing systems are critical for detecting such threats, prior work has predominantly focused on acoustic-level perturbations, leaving the impact of linguistic variation largely unexplored. In this paper, we investigate the linguistic sensitivity of both open-source and commercial anti-spoofing detectors by introducing transcript-level adversarial attacks. Our extensive evaluation reveals that even minor linguistic perturbations can significantly degrade detection accuracy: attack success rates surpass 60% on several open-source detector-voice pairs, and notably one commercial detection accuracy drops from 100% on synthetic audio to just 32%. Through a comprehensive feature attribution analysis, we identify that both linguistic complexity and model-level audio embedding similarity contribute strongly to detector vulnerability. We further demonstrate the real-world risk via a case study replicating the Brad Pitt audio deepfake scam, using transcript adversarial attacks to completely bypass commercial detectors. These results highlight the need to move beyond purely acoustic defenses and account for linguistic variation in the design of robust anti-spoofing systems. All source code will be publicly available.
- Abstract(参考訳): 近年のテキスト音声合成技術の進歩により、現実的な音声生成が可能となり、詐欺や偽造など、音声に基づくディープフェイク攻撃が活発化している。
オーディオ・アンチ・スプーフィング・システムはそのような脅威を検出するのに重要であるが、先行研究は主に音響レベルの摂動に焦点を当てており、言語的変動の影響は未解明のままである。
本稿では,オープンソースおよび商用のアンチ・スプーフィング・ディテクターの言語感受性について,転写レベルの逆攻撃を導入して検討する。
攻撃成功率は、オープンソースのディテクターとボイスペアの60%を超え、特に1つの商業的検出精度は、合成音声で100%からわずか32%に低下する。
包括的特徴帰属分析により,言語的複雑性とモデルレベルのオーディオ埋め込み類似性の両方が検出脆弱性に強く寄与することを確認した。
我々はさらに、Brad Pittオーディオディープフェイク詐欺を再現するケーススタディを通じて、実世界のリスクを実証する。
これらの結果は、純粋に音響的な防御を超えて、頑健な防汚システムの設計における言語的変化を考慮する必要性を浮き彫りにした。
すべてのソースコードが公開されている。
関連論文リスト
- Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。
脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文 参考訳(メタデータ) (2022-12-30T08:41:06Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。