論文の概要: Impact of Phonetics on Speaker Identity in Adversarial Voice Attack
- arxiv url: http://arxiv.org/abs/2509.15437v1
- Date: Thu, 18 Sep 2025 21:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.908352
- Title: Impact of Phonetics on Speaker Identity in Adversarial Voice Attack
- Title(参考訳): 対人音声攻撃における音声が話者同一性に及ぼす影響
- Authors: Daniyal Kabir Dar, Qiben Yan, Li Xiao, Arun Ross,
- Abstract要約: 音声の対立摂動は、自動音声認識(ASR)と話者検証に深刻な脅威をもたらす。
本研究は, 母音集中化や子音置換などの系統的混乱を利用した摂動が, 声道レベルでの逆方向の音声を解析し, 摂動が生ずることを示す。
16の音節にまたがる実験結果から,敵対的音声は転写誤りと同一性ドリフトの両方を誘発することが示された。
- 参考スコア(独自算出の注目度): 10.019452425301303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial perturbations in speech pose a serious threat to automatic speech recognition (ASR) and speaker verification by introducing subtle waveform modifications that remain imperceptible to humans but can significantly alter system outputs. While targeted attacks on end-to-end ASR models have been widely studied, the phonetic basis of these perturbations and their effect on speaker identity remain underexplored. In this work, we analyze adversarial audio at the phonetic level and show that perturbations exploit systematic confusions such as vowel centralization and consonant substitutions. These distortions not only mislead transcription but also degrade phonetic cues critical for speaker verification, leading to identity drift. Using DeepSpeech as our ASR target, we generate targeted adversarial examples and evaluate their impact on speaker embeddings across genuine and impostor samples. Results across 16 phonetically diverse target phrases demonstrate that adversarial audio induces both transcription errors and identity drift, highlighting the need for phonetic-aware defenses to ensure the robustness of ASR and speaker recognition systems.
- Abstract(参考訳): 音声の対立摂動は、人間には認識できないがシステム出力を著しく変更できる微妙な波形修正を導入することで、自動音声認識(ASR)と話者検証に深刻な脅威をもたらす。
エンド・ツー・エンドのASRモデルに対する標的攻撃は広く研究されているが、これらの摂動の音声的基盤と話者同一性への影響は未解明のままである。
そこで本研究では, 母音集中化や子音置換などの系統的混乱を利用した摂動が, 声道レベルでの対位音の聴取に有効であることを示す。
これらの歪みは、誤った書き起こしだけでなく、話者認証に欠かせない音素の手がかりを低下させ、アイデンティティードリフトにつながる。
ASRのターゲットとしてDeepSpeechを用いて、ターゲットとなる敵のサンプルを生成し、真と偽のサンプルにまたがる話者埋め込みへの影響を評価する。
16の音声的多様な対象句に対する結果は、敵対的音声が転写誤りとアイデンティティドリフトの両方を誘発し、ASRと話者認識システムの堅牢性を確保するために、音声認識による防御の必要性を強調していることを示している。
関連論文リスト
- Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation [6.289152035711056]
多様なスタイルで音声を増強するスタイル制御可能な音声生成モデルを提案する。
提案システムは,従来のダイアリザのダイアリゼーションセグメントから開始する。
オリジナルのオーディオと生成されたオーディオの両方からの話者埋め込みは、システムの堅牢性を高めるためにブレンドされる。
論文 参考訳(メタデータ) (2025-09-18T05:21:20Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction [17.05599594354308]
音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
対象音声抽出のタスクでは、参照音声における大域的・局所的な意味情報の特定の要素が話者の混乱を招く可能性がある。
本稿では,この課題を克服するために,自己教師付き不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T03:48:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。