論文の概要: Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2202.08532v1
- Date: Thu, 17 Feb 2022 09:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 21:48:45.813771
- Title: Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition
- Title(参考訳): ベイジアンニューラルモデリングを用いたエンド・ツー・エンド音声認識の高速化
- Authors: Chao-Han Huck Yang, Zeeshan Ahmed, Yile Gu, Joseph Szurley, Roger Ren,
Linda Liu, Andreas Stolcke, Ivan Bulyko
- Abstract要約: 厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
- 参考スコア(独自算出の注目度): 18.83748866242237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we aim to enhance the system robustness of end-to-end automatic
speech recognition (ASR) against adversarially-noisy speech examples. We focus
on a rigorous and empirical "closed-model adversarial robustness" setting
(e.g., on-device or cloud applications). The adversarial noise is only
generated by closed-model optimization (e.g., evolutionary and zeroth-order
estimation) without accessing gradient information of a targeted ASR model
directly. We propose an advanced Bayesian neural network (BNN) based
adversarial detector, which could model latent distributions against adaptive
adversarial perturbation with divergence measurement. We further simulate
deployment scenarios of RNN Transducer, Conformer, and wav2vec-2.0 based ASR
systems with the proposed adversarial detection system. Leveraging the proposed
BNN based detection system, we improve detection rate by +2.77 to +5.42%
(relative +3.03 to +6.26%) and reduce the word error rate by 5.02 to 7.47% on
LibriSpeech datasets compared to the current model enhancement methods against
the adversarial speech examples.
- Abstract(参考訳): 本研究では,敵対的雑音のある音声に対して,エンドツーエンド自動音声認識(ASR)のシステムロバスト性を高めることを目的とする。
厳密で経験的な"閉じたモデルの敵対的ロバスト性"設定(例えば、オンデバイスやクラウドアプリケーション)に焦点を当てています。
対向ノイズは、ターゲットとするASRモデルの勾配情報に直接アクセスすることなく、閉モデル最適化(例えば、進化的およびゼロ次推定)によってのみ生成される。
本稿では,bnn(advanced bayesian neural network)を基盤とした,適応的逆摂動に対する潜性分布を分岐計測によりモデル化する手法を提案する。
さらに, RNN Transducer, Conformer, wav2vec-2.0 ベースの ASR システムの配置シナリオを, 逆検出システムを用いてシミュレートする。
提案したBNNベースの検出システムを利用することで,検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し,LbriSpeechデータセット上での単語誤り率を5.02から7.47%削減する。
関連論文リスト
- ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Robustifying automatic speech recognition by extracting slowly varying
features [20.96846497286073]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Audio Spoofing Verification using Deep Convolutional Neural Networks by
Transfer Learning [0.0]
本稿では,スプーフィング攻撃を検出するために,ディープ畳み込みニューラルネットワークに基づく音声分類器を提案する。
提案手法は,メル周波数スケールにおけるパワースペクトル密度の音響的時間周波数表現を用いた。
我々は、開発において0.9056%、論理アクセスシナリオの評価データセットにおいて5.32%の誤差率(EER)を達成した。
論文 参考訳(メタデータ) (2020-08-08T07:14:40Z) - Detecting Adversarial Examples for Speech Recognition via Uncertainty
Quantification [21.582072216282725]
機械学習システム、特に自動音声認識(ASR)システムは、敵の攻撃に対して脆弱である。
本稿では,ハイブリッドASRシステムに着目し,攻撃時の不確実性を示す能力に関する4つの音響モデルを比較した。
我々は、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。
論文 参考訳(メタデータ) (2020-05-24T19:31:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。