論文の概要: Real-time, Universal, and Robust Adversarial Attacks Against Speaker
Recognition Systems
- arxiv url: http://arxiv.org/abs/2003.02301v2
- Date: Fri, 1 May 2020 02:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:36:46.274310
- Title: Real-time, Universal, and Robust Adversarial Attacks Against Speaker
Recognition Systems
- Title(参考訳): 話者認識システムに対するリアルタイム・ユニバーサル・ロバストな敵意攻撃
- Authors: Yi Xie, Cong Shi, Zhuohang Li, Jian Liu, Yingying Chen, Bo Yuan
- Abstract要約: 我々は,最先端のディープニューラルネットワーク(DNN)に基づく話者認識システムに対する,最初のリアルタイム,普遍的,堅牢な敵攻撃を提案する。
英語話者109人の公開データセットを用いた実験は、提案した攻撃の有効性と堅牢性を示し、高い攻撃成功率は90%以上である。
- 参考スコア(独自算出の注目度): 21.559732692440424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the popularity of voice user interface (VUI) exploded in recent years,
speaker recognition system has emerged as an important medium of identifying a
speaker in many security-required applications and services. In this paper, we
propose the first real-time, universal, and robust adversarial attack against
the state-of-the-art deep neural network (DNN) based speaker recognition
system. Through adding an audio-agnostic universal perturbation on arbitrary
enrolled speaker's voice input, the DNN-based speaker recognition system would
identify the speaker as any target (i.e., adversary-desired) speaker label. In
addition, we improve the robustness of our attack by modeling the sound
distortions caused by the physical over-the-air propagation through estimating
room impulse response (RIR). Experiment using a public dataset of 109 English
speakers demonstrates the effectiveness and robustness of our proposed attack
with a high attack success rate of over 90%. The attack launching time also
achieves a 100X speedup over contemporary non-universal attacks.
- Abstract(参考訳): 近年,音声ユーザインタフェース(VUI)の普及が進み,多くのセキュリティ要求アプリケーションやサービスにおいて,話者を識別する重要な媒体として話者認識システムが登場している。
本稿では,最先端のディープニューラルネットワーク(DNN)に基づく話者認識システムに対する,最初のリアルタイム,普遍的,堅牢な敵攻撃を提案する。
任意の登録話者の音声入力に音声に依存しない普遍的摂動を加えることで、DNNベースの話者認識システムは、話者を任意のターゲット(すなわち、敵意のある話者ラベル)として識別する。
また,室内インパルス応答 (rir) を推定することにより, 物理伝搬による音歪をモデル化し, 攻撃のロバスト性を向上させる。
英語話者109人の公開データセットを用いた実験は、提案した攻撃の有効性と堅牢性を示し、高い攻撃成功率は90%以上である。
攻撃開始時間もまた、現代の非ユニバーサル攻撃よりも100倍のスピードアップを達成する。
関連論文リスト
- Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Perceptual-based deep-learning denoiser as a defense against adversarial
attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。
本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。
その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文 参考訳(メタデータ) (2021-07-12T07:00:06Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - SoK: The Faults in our ASRs: An Overview of Attacks against Automatic
Speech Recognition and Speaker Identification Systems [28.635467696564703]
音声と話者システムのエンドツーエンドアーキテクチャは、画像空間のそれとはかなり異なる攻撃と防御を行うことを示す。
そして、これらのモデルに対する攻撃はほとんど普遍的に転送できないことを実験的に実証した。
論文 参考訳(メタデータ) (2020-07-13T18:52:25Z) - Enabling Fast and Universal Audio Adversarial Attack Using Generative
Model [21.559732692440424]
高速音声対向摂動発生器(FAPG)を提案する。
FAPGは生成モデルを用いて、1つのフォワードパスでオーディオ入力の逆摂動を生成する。
また,UAPG(Universal Audio Adversarial Perturbation Generator)を提案する。
論文 参考訳(メタデータ) (2020-04-26T00:51:54Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。