論文の概要: Transferable Adversarial Attacks against ASR
- arxiv url: http://arxiv.org/abs/2411.09220v1
- Date: Thu, 14 Nov 2024 06:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:40.209599
- Title: Transferable Adversarial Attacks against ASR
- Title(参考訳): ASRに対するトランスファー可能な敵攻撃
- Authors: Xiaoxue Gao, Zexin Li, Yiming Chen, Cong Liu, Haizhou Li,
- Abstract要約: 最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
- 参考スコア(独自算出の注目度): 43.766547483367795
- License:
- Abstract: Given the extensive research and real-world applications of automatic speech recognition (ASR), ensuring the robustness of ASR models against minor input perturbations becomes a crucial consideration for maintaining their effectiveness in real-time scenarios. Previous explorations into ASR model robustness have predominantly revolved around evaluating accuracy on white-box settings with full access to ASR models. Nevertheless, full ASR model details are often not available in real-world applications. Therefore, evaluating the robustness of black-box ASR models is essential for a comprehensive understanding of ASR model resilience. In this regard, we thoroughly study the vulnerability of practical black-box attacks in cutting-edge ASR models and propose to employ two advanced time-domain-based transferable attacks alongside our differentiable feature extractor. We also propose a speech-aware gradient optimization approach (SAGO) for ASR, which forces mistranscription with minimal impact on human imperceptibility through voice activity detection rule and a speech-aware gradient-oriented optimizer. Our comprehensive experimental results reveal performance enhancements compared to baseline approaches across five models on two databases.
- Abstract(参考訳): 自動音声認識(ASR)の広範な研究と実世界の応用を考えると、ASRモデルの小さな入力摂動に対する堅牢性を保証することは、リアルタイムシナリオにおける有効性を維持する上で重要な考慮事項となる。
ASRモデルのロバスト性に関する以前の調査は、ASRモデルへの完全なアクセスを伴うホワイトボックス設定の精度評価を中心に、主に展開されてきた。
しかしながら、ASRモデルの詳細は現実世界のアプリケーションでは利用できないことが多い。
したがって, ブラックボックス型ASRモデルの堅牢性を評価することは, ASRモデルレジリエンスの包括的理解に不可欠である。
本稿では,最先端ASRモデルにおける実用的なブラックボックス攻撃の脆弱性を徹底的に研究し,特徴抽出器とともに時間領域ベースの転送可能な攻撃を2つ導入することを提案する。
また、音声活動検出ルールと音声認識勾配指向最適化器を用いて、人間の知覚可能性に最小限の影響で誤転写を強制するASRのための音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
関連論文リスト
- Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network [23.034147003704483]
本研究は,ASRモデルの単語誤り率(WER)を改善するために,パケット損失から回復することに焦点を当てた。
凍結ASRモデルに接続したフロントエンド適応ネットワークを提案する。
実験により、Whisperの基準に基づいてトレーニングされた適応ネットワークは、特にドメインや言語間の単語エラー率を減少させることが示された。
論文 参考訳(メタデータ) (2024-06-27T06:40:01Z) - Exploiting Self-Supervised Constraints in Image Super-Resolution [72.35265021054471]
本稿では,SSC-SRと呼ばれる単一画像超解像のための新しい自己監督制約を提案する。
SSC-SRは、安定性を高めるために指数移動平均によって更新された二重非対称パラダイムとターゲットモデルを用いることで、画像の複雑さのばらつきに一意に対処する。
SSC-SRフレームワークはさまざまなベンチマークデータセットに対して,EDSR平均0.1dB,SwinIR平均0.06dBの大幅な拡張を実現している。
論文 参考訳(メタデータ) (2024-03-30T06:18:50Z) - Speech Robust Bench: A Robustness Benchmark For Speech Recognition [20.758654420612793]
Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。
SRBは114の入力摂動で構成されており、ASRモデルが野生に展開する際の不均一な破損をシミュレートする。
論文 参考訳(メタデータ) (2024-03-08T08:10:29Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Watch What You Pretrain For: Targeted, Transferable Adversarial Examples
on Self-Supervised Speech Recognition models [27.414693266500603]
攻撃対象の敵攻撃は、自動音声認識システムに攻撃テキストを出力させる音声サンプルを生成する。
近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。
現代のASRアーキテクチャ、特にセルフ・スーパーバイザード・ラーニングに基づくアーキテクチャは、実際にトランスファービリティーに対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-09-17T15:01:26Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。