論文の概要: SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops
- arxiv url: http://arxiv.org/abs/2502.09553v1
- Date: Thu, 13 Feb 2025 18:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:07.422141
- Title: SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops
- Title(参考訳): SyntheticPop:Synthetic VoicePopで話者認証システムを攻撃する
- Authors: Eshaq Jamdar, Amith Kamath Belman,
- Abstract要約: Voice Popsは、登録プロセス中に個人固有の音素の発音を区別することを目的としている。
本稿では,VA+VoicePopシステムの音素認識機能をターゲットにした,新たな攻撃手法を提案する。
トレーニングデータセットの20%を毒殺しながら95%以上の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Voice Authentication (VA), also known as Automatic Speaker Verification (ASV), is a widely adopted authentication method, particularly in automated systems like banking services, where it serves as a secondary layer of user authentication. Despite its popularity, VA systems are vulnerable to various attacks, including replay, impersonation, and the emerging threat of deepfake audio that mimics the voice of legitimate users. To mitigate these risks, several defense mechanisms have been proposed. One such solution, Voice Pops, aims to distinguish an individual's unique phoneme pronunciations during the enrollment process. While promising, the effectiveness of VA+VoicePop against a broader range of attacks, particularly logical or adversarial attacks, remains insufficiently explored. We propose a novel attack method, which we refer to as SyntheticPop, designed to target the phoneme recognition capabilities of the VA+VoicePop system. The SyntheticPop attack involves embedding synthetic "pop" noises into spoofed audio samples, significantly degrading the model's performance. We achieve an attack success rate of over 95% while poisoning 20% of the training dataset. Our experiments demonstrate that VA+VoicePop achieves 69% accuracy under normal conditions, 37% accuracy when subjected to a baseline label flipping attack, and just 14% accuracy under our proposed SyntheticPop attack, emphasizing the effectiveness of our method.
- Abstract(参考訳): 音声認証(Voice Authentication, VA)または自動話者認証(ASV)は、銀行サービスなどの自動化システムにおいて広く採用されている認証手法である。
その人気にもかかわらず、VAシステムは、リプレイ、偽造、そして正統なユーザーの声を模倣するディープフェイクオーディオの脅威など、様々な攻撃に対して脆弱である。
これらのリスクを軽減するため、いくつかの防御機構が提案されている。
そのようなソリューションの1つ、Voice Popsは、登録プロセス中に個人固有の音素の発音を区別することを目的としている。
しかし、VA+VoicePopの幅広い攻撃、特に論理的または敵対的攻撃に対する効果は、まだ十分に調査されていない。
本稿では,VA+VoicePopシステムの音素認識機能をターゲットにした,新たな攻撃手法を提案する。
SyntheticPop攻撃は、合成された"ポップ"ノイズをスプーフされたオーディオサンプルに埋め込み、モデルの性能を著しく低下させる。
トレーニングデータセットの20%を毒殺しながら95%以上の攻撃成功率を達成する。
VA+VoicePopは,通常の条件下で69%の精度,ベースラインラベルフリップ攻撃時の37%の精度,SyntheticPop攻撃時の14%の精度を実現し,本手法の有効性を強調した。
関連論文リスト
- Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via
Split-Second Phoneme Injection [9.940661629195086]
PhantomSoundは、音声アシスタントに対するクエリ効率の良いブラックボックス攻撃である。
PhantomSoundは、商用音声コントロールデバイス5台を空から攻撃する上で実用的で堅牢であることを示す。
我々は、現在最先端のブラックボックス攻撃と比較して、クエリ効率を大幅に向上し、未目標および標的攻撃の成功コストを93.1%、65.5%削減する。
論文 参考訳(メタデータ) (2023-09-13T13:50:41Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Voting for the right answer: Adversarial defense for speaker
verification [79.10523688806852]
ASVは敵の攻撃のレーダー下にあり、これは人間の知覚による本来の攻撃と似ている。
盲点領域におけるASVのリスクの高い決定を防止するため、「正しい回答を求める」という考え方を提案する。
実験結果から,本手法は両攻撃者に対するロバスト性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-15T04:05:28Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - VenoMave: Targeted Poisoning Against Speech Recognition [30.448709704880518]
VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-10-21T00:30:08Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - Detecting Audio Attacks on ASR Systems with Dropout Uncertainty [40.9172128924305]
我々の防衛は、最適化された摂動と周波数マスキングによって生成された攻撃を検出することができることを示す。
我々は、MozillaのCommonVoiceデータセット、UrbanSoundデータセット、およびLibriSpeechデータセットの抜粋に対する防御をテストする。
論文 参考訳(メタデータ) (2020-06-02T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。