論文の概要: Exploring Targeted Universal Adversarial Perturbations to End-to-end ASR
Models
- arxiv url: http://arxiv.org/abs/2104.02757v1
- Date: Tue, 6 Apr 2021 19:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:34:14.374862
- Title: Exploring Targeted Universal Adversarial Perturbations to End-to-end ASR
Models
- Title(参考訳): エンド・ツー・エンド ASR モデルに対する普遍的摂動の探索
- Authors: Zhiyun Lu, Wei Han, Yu Zhang, Liangliang Cao
- Abstract要約: 我々は2つの異なる攻撃、すなわち付加的および先行的摂動、および最先端のLAS、CTCおよびRNN-Tモデルにおけるそれらの性能について研究する。
RNN-Tを攻撃するには、先行する摂動は付加摂動よりも効果的であり、モデルを誤解して任意の長さの発話で同じ短い目標を予測することができる。
- 参考スコア(独自算出の注目度): 18.195062334894192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although end-to-end automatic speech recognition (e2e ASR) models are widely
deployed in many applications, there have been very few studies to understand
models' robustness against adversarial perturbations. In this paper, we explore
whether a targeted universal perturbation vector exists for e2e ASR models. Our
goal is to find perturbations that can mislead the models to predict the given
targeted transcript such as "thank you" or empty string on any input utterance.
We study two different attacks, namely additive and prepending perturbations,
and their performances on the state-of-the-art LAS, CTC and RNN-T models. We
find that LAS is the most vulnerable to perturbations among the three models.
RNN-T is more robust against additive perturbations, especially on long
utterances. And CTC is robust against both additive and prepending
perturbations. To attack RNN-T, we find prepending perturbation is more
effective than the additive perturbation, and can mislead the models to predict
the same short target on utterances of arbitrary length.
- Abstract(参考訳): エンド・ツー・エンドの自動音声認識(e2e asr)モデルは広く応用されているが、逆摂動に対するモデルの頑健性を理解する研究は少ない。
本稿では,e2e ASRモデルに対して,対象の普遍摂動ベクトルが存在するかどうかを考察する。
私たちのゴールは、任意の入力発話で"thank you"や空文字列など、与えられたターゲットの書き起こしを予測するためにモデルを誤解させるような摂動を見つけることです。
本研究では,加法的および予知的摂動の2つの異なる攻撃について検討し,その性能を最先端のLAS,CTC,RNN-Tモデルで検証した。
LASは3つのモデルの中で最も脆弱な摂動であることがわかった。
RNN-Tは、特に長い発話において、加法摂動に対してより堅牢である。
CTCは加法的および予知的摂動に対して堅牢である。
RNN-Tを攻撃するためには、先行する摂動は加法摂動よりも効果的であり、任意の長さの発話に対して同じ短いターゲットを予測するためにモデルを誤解させる可能性がある。
関連論文リスト
- Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training [31.495803865226158]
対人訓練(AT)は、2つの主要な理由から実践的なAIシステムに展開されることはめったにない。
ATはビジョンモデルにおける一般化の減少をもたらすが、エンコーダベースの言語モデルでは一般化は改善されるか変化しない。
SMAATは標準的なATに比べて25~33%のGPU時間しか必要とせず、全アプリケーションにおけるロバスト性は著しく向上している。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。
以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。
これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文 参考訳(メタデータ) (2022-07-12T10:40:19Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z) - Double Targeted Universal Adversarial Perturbations [83.60161052867534]
本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。
提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。
論文 参考訳(メタデータ) (2020-10-07T09:08:51Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。