論文の概要: SlothSpeech: Denial-of-service Attack Against Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2306.00794v1
- Date: Thu, 1 Jun 2023 15:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:05:58.632285
- Title: SlothSpeech: Denial-of-service Attack Against Speech Recognition Models
- Title(参考訳): SlothSpeech: 音声認識モデルに対するサービス拒否攻撃
- Authors: Mirazul Haque, Rutvij Shah, Simin Chen, Berrak \c{S}i\c{s}man, Cong
Liu, Wei Yang
- Abstract要約: 本研究では,音声認識モデルに対するサービス拒否攻撃であるSlothSpeechを提案する。
SlothSpeechが生成した入力は、ベニグインプットによって引き起こされるレイテンシの最大40倍のレイテンシを増大させることができる。
- 参考スコア(独自算出の注目度): 6.984028236389121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) models have been popular nowadays to execute different
speech-related tasks, including automatic speech recognition (ASR). As ASR is
being used in different real-time scenarios, it is important that the ASR model
remains efficient against minor perturbations to the input. Hence, evaluating
efficiency robustness of the ASR model is the need of the hour. We show that
popular ASR models like Speech2Text model and Whisper model have dynamic
computation based on different inputs, causing dynamic efficiency. In this
work, we propose SlothSpeech, a denial-of-service attack against ASR models,
which exploits the dynamic behaviour of the model. SlothSpeech uses the
probability distribution of the output text tokens to generate perturbations to
the audio such that efficiency of the ASR model is decreased. We find that
SlothSpeech generated inputs can increase the latency up to 40X times the
latency induced by benign input.
- Abstract(参考訳): 近年,音声認識(ASR)など,さまざまな音声関連タスクを実行するために,ディープラーニング(DL)モデルが普及している。
ASRは様々なリアルタイムシナリオで使用されているため、入力に対する小さな摂動に対してASRモデルが効率的であることは重要である。
したがって、ASRモデルの効率性を評価することが時間の必要性である。
我々は,Speech2TextモデルやWhisperモデルのような一般的なASRモデルが,異なる入力に基づいて動的計算を行うことを示す。
本研究では,ASRモデルに対するサービス拒否攻撃であるSlothSpeechを提案する。
SlothSpeechは出力されたテキストトークンの確率分布を用いて、ASRモデルの効率が低下するようにオーディオに摂動を生成する。
slothspeechが生成する入力は、良性入力によって引き起こされるレイテンシの最大40倍のレイテンシを増加させることができる。
関連論文リスト
- Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Speech Pattern based Black-box Model Watermarking for Automatic Speech
Recognition [83.2274907780273]
音声認識モデルのためのブラックボックス透かし方式を設計する方法はまだ未解決の問題である。
ASRモデルのIPを保護するための最初のブラックボックスモデル透かしフレームワークを提案する。
最先端のオープンソースASRシステムであるDeepSpeechの実験は、提案された透かし方式の有効性を実証している。
論文 参考訳(メタデータ) (2021-10-19T09:01:41Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors [5.53506103787497]
Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
論文 参考訳(メタデータ) (2020-06-10T03:18:15Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。