論文の概要: Selective Masking Adversarial Attack on Automatic Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2504.04394v1
- Date: Sun, 06 Apr 2025 07:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:32.388317
- Title: Selective Masking Adversarial Attack on Automatic Speech Recognition Systems
- Title(参考訳): 自動音声認識システムにおける選択的マスキング逆攻撃
- Authors: Zheng Fang, Shenyi Zhang, Tao Wang, Bowen Li, Lingchen Zhao, Zhangyi Wang,
- Abstract要約: 本稿では,SMA攻撃(Selective Masking Adversarial attack)を提案する。
実験により、SMA攻撃は、二重ソースシナリオにおいて、効果的で音声の敵対的な例を生成できることが示されている。
- 参考スコア(独自算出の注目度): 14.719709247756178
- License:
- Abstract: Extensive research has shown that Automatic Speech Recognition (ASR) systems are vulnerable to audio adversarial attacks. Current attacks mainly focus on single-source scenarios, ignoring dual-source scenarios where two people are speaking simultaneously. To bridge the gap, we propose a Selective Masking Adversarial attack, namely SMA attack, which ensures that one audio source is selected for recognition while the other audio source is muted in dual-source scenarios. To better adapt to the dual-source scenario, our SMA attack constructs the normal dual-source audio from the muted audio and selected audio. SMA attack initializes the adversarial perturbation with a small Gaussian noise and iteratively optimizes it using a selective masking optimization algorithm. Extensive experiments demonstrate that the SMA attack can generate effective and imperceptible audio adversarial examples in the dual-source scenario, achieving an average success rate of attack of 100% and signal-to-noise ratio of 37.15dB on Conformer-CTC, outperforming the baselines.
- Abstract(参考訳): 大規模な研究により、ASR(Automatic Speech Recognition)システムは、音声の敵対的攻撃に対して脆弱であることが示されている。
現在の攻撃は主に、二人が同時に話しているデュアルソースシナリオを無視して、シングルソースシナリオに重点を置いている。
このギャップを埋めるため,SMA攻撃という選択的マスキング・アドバイザリ・アタック(Selective Masking Adversarial attack)を提案する。
マルチソースのシナリオに適応するために、SMA攻撃はミューテッドオーディオと選択されたオーディオから通常のデュアルソースオーディオを構築する。
SMA攻撃は、小さなガウス雑音で逆方向の摂動を初期化し、選択的マスキング最適化アルゴリズムを用いて反復的に最適化する。
大規模な実験により、SMA攻撃は二重ソースのシナリオにおいて効果的で知覚不能なオーディオ敵の例を生成し、100%の攻撃の成功率とコンフォーマーCTCの信号対雑音比を平均37.15dBで達成し、ベースラインを上回った。
関連論文リスト
- Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer [8.948537516293328]
本稿では,ユーザ認識スタイルの転送に基づく自動音声認識(ASR)システムに対する攻撃を提案する。
提案手法は,ユーザカスタマイズスタイルの必要性を満たすとともに,攻撃の82%の成功率を達成することができる。
論文 参考訳(メタデータ) (2024-05-15T16:05:24Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - Audio Attacks and Defenses against AED Systems - A Practical Study [2.365611283869544]
我々は,ディープラーニングに基づく音声イベント検出システム(AED)を,敵の例による回避攻撃に対して評価する。
本研究では,背景雑音と白色雑音という2つの異なる種類のノイズを用いて,敵対者が検出を避けるために使用する音声対向例を生成する。
音声入力に適用した場合,これらの対策が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-14T13:42:49Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Double Targeted Universal Adversarial Perturbations [83.60161052867534]
本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。
提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。
論文 参考訳(メタデータ) (2020-10-07T09:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。