論文の概要: Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2606.05678v1
- Date: Thu, 04 Jun 2026 04:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.541908
- Title: Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition
- Title(参考訳): 波形ロバスト性を超えて:自動音声認識におけるロバスト特徴量コーダの対向攻撃
- Authors: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He,
- Abstract要約: 既存の敵対的攻撃は、直接音声に敵対的ノイズを付加する。
クリーン・レファレンス・フィーチャー・ヴォコーダ・アタックは、敵の探索空間を原波形から自己教師付き学習表現へ移動させる。
実験により,Whisper-smallのみを公共代理モデルとして最適化した場合,攻撃はブラックボックスASRモデルに効果的に伝達されることが示された。
- 参考スコア(独自算出の注目度): 9.839293944956006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems have become widely used for multilingual speech-to-text transcription. Their robustness to adversarial attacks has become an important topic for the community. Existing adversarial attacks directly add adversarial noise to the speech audio. However, prior work has shown that existing adversarial attacks face two limitations: they often transfer poorly to black-box ASR systems and are increasingly mitigated by defenses tailored to input-space perturbations. In this work, we propose a Clean-Referenced Feature-Vocoder Attack, a surrogate-based black-box attack that moves the adversarial search space from raw waveforms to self-supervised learning (SSL) representations. To address the transferability limitation, we perturb more generalizable acoustic-phonetic representations rather than low-level waveform samples, reducing dependence on surrogate-specific waveform gradients and encouraging adversarial perturbations that generalize across ASR systems. To bypass different defenses, we shift the adversarial signal from explicit additive waveform noise to SSL feature-space perturbations and reconstruct them through a vocoder into speech-like waveform adversarial signals, making the resulting samples less aligned with waveform-bounded defenses. Extensive experiments show that, when optimized only on raw Whisper-small as a public surrogate model, our attack transfers effectively to black-box ASR models with a +26.6 WER improvement over the SOTA baseline, while also remaining effective against multiple training defenses with a +36.2 WER improvement. These results reveal a blind spot in current ASR robustness evaluation.
- Abstract(参考訳): 音声認識システム(ASR)は多言語音声からテキストへの書き起こしに広く利用されている。
敵の攻撃に対するロバスト性は、コミュニティにとって重要なトピックとなっている。
既存の敵対的攻撃は、直接音声に敵対的ノイズを付加する。
しかし、以前の研究では、既存の敵攻撃は、ブラックボックスのASRシステムに悪影響を及ぼすことがしばしばあり、入力空間の摂動に合わせた防御によって緩和される、という2つの制限に直面していることが示されている。
本研究では,探索空間を原波形から自己教師型学習(SSL)表現へ移動させるサロゲートベースのブラックボックス攻撃である,クリーン・リフレクション・フィーチャー・ヴォコーダ・アタックを提案する。
転送可能性の限界に対処するため、低レベル波形サンプルよりもより一般化可能な音響-音声表現を摂動し、サロゲート固有の波形勾配への依存を減らし、ASRシステム全体にわたって一般化する対向的摂動を奨励する。
異なるディフェンスを回避するため, 対向信号は明示的な付加波形ノイズからSSL特徴空間摂動に移行し, ボコーダを介して音声のような波形対向信号に再構成し, 結果のサンプルを波形境界のディフェンスに整合しにくくする。
広汎な実験により、Whisper-smallのみをパブリックサロゲートモデルとして最適化した場合、攻撃はSOTAベースラインを+26.6 WER改良したブラックボックスASRモデルに効果的に移行する一方で、+36.2 WER改良した複数のトレーニングディフェンスに対して有効であることが示された。
これらの結果から,現在のASRロバスト性評価の盲点が明らかとなった。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Perceptual-based deep-learning denoiser as a defense against adversarial
attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。
本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。
その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文 参考訳(メタデータ) (2021-07-12T07:00:06Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - WaveGuard: Understanding and Mitigating Audio Adversarial Examples [12.010555227327743]
本稿では,ASRシステムに対する敵入力を検出するフレームワークであるWaveGuardを紹介する。
本フレームワークは,音声変換機能を組み込んで原音声と変換音声のasr転写を解析し,逆入力を検出する。
論文 参考訳(メタデータ) (2021-03-04T21:44:37Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。