Fugu-MT 論文翻訳(概要): Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition Systems

論文の概要: Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition Systems

arxiv url: http://arxiv.org/abs/2112.01821v1
Date: Fri, 3 Dec 2021 10:21:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-06 16:18:58.010618
Title: Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition Systems
Title（参考訳）: 自動音声認識システムのブラックボックス非目標逆検定
Authors: Xiaoliang Wu, Ajitha Rajan
Abstract要約: 音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
参考スコア（独自算出の注目度）: 1.599072005190786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) systems are prevalent, particularly in applications for voice navigation and voice control of domestic appliances. The computational core of ASRs are deep neural networks (DNNs) that have been shown to be susceptible to adversarial perturbations; easily misused by attackers to generate malicious outputs. To help test the correctness of ASRS, we propose techniques that automatically generate blackbox (agnostic to the DNN), untargeted adversarial attacks that are portable across ASRs. Much of the existing work on adversarial ASR testing focuses on targeted attacks, i.e generating audio samples given an output text. Targeted techniques are not portable, customised to the structure of DNNs (whitebox) within a specific ASR. In contrast, our method attacks the signal processing stage of the ASR pipeline that is shared across most ASRs. Additionally, we ensure the generated adversarial audio samples have no human audible difference by manipulating the acoustic signal using a psychoacoustic model that maintains the signal below the thresholds of human perception. We evaluate portability and effectiveness of our techniques using three popular ASRs and three input audio datasets using the metrics - WER of output text, Similarity to original audio and attack Success Rate on different ASRs. We found our testing techniques were portable across ASRs, with the adversarial audio samples producing high Success Rates, WERs and Similarities to the original audio.
Abstract（参考訳）: 音声認識システム(ASR)は,特に音声ナビゲーションや家電機器の音声制御への応用において普及している。 ASRの計算コアはディープニューラルネットワーク(DNN)であり、敵の摂動に影響を受けやすいことが示されている。本稿では,ASRSの正当性をテストするため,非目標の敵攻撃であるブラックボックスを自動生成する手法を提案する。既存のadversarial asrテストの作業の多くは、対象とする攻撃、すなわち出力されたテキストからオーディオサンプルを生成することに焦点を当てている。ターゲット技術はポータブルではなく、特定のASR内のDNN(ホワイトボックス)の構造にカスタマイズされている。対照的に、本手法は、ほとんどのASR間で共有されるASRパイプラインの信号処理段階を攻撃している。さらに,人間の知覚閾値以下で信号を維持する心理音響モデルを用いて,音声信号を操作することにより,生成した対向音声サンプルに人間の聴力差がないことを保証する。 3つの一般的なasrと3つの入力オーディオデータセットを用いたポータビリティと有効性を評価し,その指標として出力テキストのwer,オリジナルオーディオとの類似性,異なるasrにおける攻撃成功率を評価した。実験手法はASR間で可搬性があり, 対戦型オーディオサンプルでは, 元の音声と高い成功率, WER, 類似度が得られた。

関連論文リスト

SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。提案手法は,チャネル抽出技術とGANの相乗効果を利用する。台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文参考訳（メタデータ） (2024-09-19T01:02:31Z)
ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features [25.28307679567351]
ALIFは、最初のブラックボックス対応言語機能ベースのアタックパイプラインである。本稿では,デジタルドメインと物理再生環境の両方で攻撃を開始するためのALIF-OTLおよびALIF-OTAスキームを提案する。
論文参考訳（メタデータ） (2024-08-03T15:30:16Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer [8.948537516293328]
本稿では,ユーザ認識スタイルの転送に基づく自動音声認識(ASR)システムに対する攻撃を提案する。提案手法は,ユーザカスタマイズスタイルの必要性を満たすとともに,攻撃の82%の成功率を達成することができる。
論文参考訳（メタデータ） (2024-05-15T16:05:24Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文参考訳（メタデータ） (2021-12-14T13:50:23Z)
Speech Pattern based Black-box Model Watermarking for Automatic Speech Recognition [83.2274907780273]
音声認識モデルのためのブラックボックス透かし方式を設計する方法はまだ未解決の問題である。 ASRモデルのIPを保護するための最初のブラックボックスモデル透かしフレームワークを提案する。最先端のオープンソースASRシステムであるDeepSpeechの実験は、提案された透かし方式の有効性を実証している。
論文参考訳（メタデータ） (2021-10-19T09:01:41Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)
Detecting Adversarial Examples for Speech Recognition via Uncertainty Quantification [21.582072216282725]
機械学習システム、特に自動音声認識(ASR)システムは、敵の攻撃に対して脆弱である。本稿では,ハイブリッドASRシステムに着目し,攻撃時の不確実性を示す能力に関する4つの音響モデルを比較した。我々は、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。
論文参考訳（メタデータ） (2020-05-24T19:31:02Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。