論文の概要: Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems
- arxiv url: http://arxiv.org/abs/2112.01821v1
- Date: Fri, 3 Dec 2021 10:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 16:18:58.010618
- Title: Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems
- Title(参考訳): 自動音声認識システムのブラックボックス非目標逆検定
- Authors: Xiaoliang Wu, Ajitha Rajan
- Abstract要約: 音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems are prevalent, particularly in
applications for voice navigation and voice control of domestic appliances. The
computational core of ASRs are deep neural networks (DNNs) that have been shown
to be susceptible to adversarial perturbations; easily misused by attackers to
generate malicious outputs. To help test the correctness of ASRS, we propose
techniques that automatically generate blackbox (agnostic to the DNN),
untargeted adversarial attacks that are portable across ASRs. Much of the
existing work on adversarial ASR testing focuses on targeted attacks, i.e
generating audio samples given an output text. Targeted techniques are not
portable, customised to the structure of DNNs (whitebox) within a specific ASR.
In contrast, our method attacks the signal processing stage of the ASR pipeline
that is shared across most ASRs. Additionally, we ensure the generated
adversarial audio samples have no human audible difference by manipulating the
acoustic signal using a psychoacoustic model that maintains the signal below
the thresholds of human perception. We evaluate portability and effectiveness
of our techniques using three popular ASRs and three input audio datasets using
the metrics - WER of output text, Similarity to original audio and attack
Success Rate on different ASRs. We found our testing techniques were portable
across ASRs, with the adversarial audio samples producing high Success Rates,
WERs and Similarities to the original audio.
- Abstract(参考訳): 音声認識システム(ASR)は,特に音声ナビゲーションや家電機器の音声制御への応用において普及している。
ASRの計算コアはディープニューラルネットワーク(DNN)であり、敵の摂動に影響を受けやすいことが示されている。
本稿では,ASRSの正当性をテストするため,非目標の敵攻撃であるブラックボックスを自動生成する手法を提案する。
既存のadversarial asrテストの作業の多くは、対象とする攻撃、すなわち出力されたテキストからオーディオサンプルを生成することに焦点を当てている。
ターゲット技術はポータブルではなく、特定のASR内のDNN(ホワイトボックス)の構造にカスタマイズされている。
対照的に、本手法は、ほとんどのASR間で共有されるASRパイプラインの信号処理段階を攻撃している。
さらに,人間の知覚閾値以下で信号を維持する心理音響モデルを用いて,音声信号を操作することにより,生成した対向音声サンプルに人間の聴力差がないことを保証する。
3つの一般的なasrと3つの入力オーディオデータセットを用いたポータビリティと有効性を評価し,その指標として出力テキストのwer,オリジナルオーディオとの類似性,異なるasrにおける攻撃成功率を評価した。
実験手法はASR間で可搬性があり, 対戦型オーディオサンプルでは, 元の音声と高い成功率, WER, 類似度が得られた。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Robustifying automatic speech recognition by extracting slowly varying
features [20.96846497286073]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Speech Pattern based Black-box Model Watermarking for Automatic Speech
Recognition [83.2274907780273]
音声認識モデルのためのブラックボックス透かし方式を設計する方法はまだ未解決の問題である。
ASRモデルのIPを保護するための最初のブラックボックスモデル透かしフレームワークを提案する。
最先端のオープンソースASRシステムであるDeepSpeechの実験は、提案された透かし方式の有効性を実証している。
論文 参考訳(メタデータ) (2021-10-19T09:01:41Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Audio Attacks and Defenses against AED Systems - A Practical Study [2.365611283869544]
我々は,ディープラーニングに基づく音声イベント検出システム(AED)を,敵の例による回避攻撃に対して評価する。
本研究では,背景雑音と白色雑音という2つの異なる種類のノイズを用いて,敵対者が検出を避けるために使用する音声対向例を生成する。
音声入力に適用した場合,これらの対策が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-14T13:42:49Z) - WaveGuard: Understanding and Mitigating Audio Adversarial Examples [12.010555227327743]
本稿では,ASRシステムに対する敵入力を検出するフレームワークであるWaveGuardを紹介する。
本フレームワークは,音声変換機能を組み込んで原音声と変換音声のasr転写を解析し,逆入力を検出する。
論文 参考訳(メタデータ) (2021-03-04T21:44:37Z) - Detecting Adversarial Examples for Speech Recognition via Uncertainty
Quantification [21.582072216282725]
機械学習システム、特に自動音声認識(ASR)システムは、敵の攻撃に対して脆弱である。
本稿では,ハイブリッドASRシステムに着目し,攻撃時の不確実性を示す能力に関する4つの音響モデルを比較した。
我々は、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。
論文 参考訳(メタデータ) (2020-05-24T19:31:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。