論文の概要: Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2405.06134v1
- Date: Thu, 9 May 2024 22:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:06:55.299760
- Title: Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models
- Title(参考訳): Muting Whisper: 音声基礎モデルに対するユニバーサルアコースティック・アタック
- Authors: Vyas Raina, Rao Ma, Charles McGhee, Kate Knill, Mark Gales,
- Abstract要約: モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisperの$textttendoftext>$ tokenの普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
- 参考スコア(独自算出の注目度): 5.942307521138583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large speech foundation models like Whisper have led to their widespread use in many automatic speech recognition (ASR) applications. These systems incorporate `special tokens' in their vocabulary, such as $\texttt{<endoftext>}$, to guide their language generation process. However, we demonstrate that these tokens can be exploited by adversarial attacks to manipulate the model's behavior. We propose a simple yet effective method to learn a universal acoustic realization of Whisper's $\texttt{<endoftext>}$ token, which, when prepended to any speech signal, encourages the model to ignore the speech and only transcribe the special token, effectively `muting' the model. Our experiments demonstrate that the same, universal 0.64-second adversarial audio segment can successfully mute a target Whisper ASR model for over 97\% of speech samples. Moreover, we find that this universal adversarial audio segment often transfers to new datasets and tasks. Overall this work demonstrates the vulnerability of Whisper models to `muting' adversarial attacks, where such attacks can pose both risks and potential benefits in real-world settings: for example the attack can be used to bypass speech moderation systems, or conversely the attack can also be used to protect private speech data.
- Abstract(参考訳): Whisperのような大規模音声基盤モデルの最近の発展は、多くの自動音声認識(ASR)アプリケーションで広く利用されている。
これらのシステムは、言語生成プロセスをガイドするために、 $\texttt{<endoftext>}$ のような 'special tokens' を語彙に含めている。
しかし,これらのトークンは,敵攻撃によってモデル動作を操作できることが実証された。
本稿では,Whisperの$\texttt{<endoftext>}$ tokenの普遍的な音響的実現法を提案する。
実験により, 対象とするWhisper ASRモデルに対して, 音声サンプルの97 %以上で0.64秒対逆音声セグメントをミュートできることが実証された。
さらに,このユニバーサル音声セグメントは,しばしば新しいデータセットやタスクに転送される。
例えば、攻撃は音声モデレーションシステムを回避したり、逆に、攻撃はプライベートな音声データを保護するためにも使用できる。
関連論文リスト
- dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - GANtron: Emotional Speech Synthesis with Generative Adversarial Networks [0.0]
提案するテキスト音声合成モデルでは,推定音声を所望の感情で調整することができる。
我々は,GAN(Generative Adversarial Networks)とアテンション機構を用いたシーケンス・ツー・シーケンス・モデルを用いた。
論文 参考訳(メタデータ) (2021-10-06T10:44:30Z) - Audio Adversarial Examples: Attacks Using Vocal Masks [0.0]
自動音声テキストシステム上での音声対向例を構築した。
我々は、オリジナル音声から生成された音声のボーカルマスクをオーバーレイすることで、別の音声を生成する。
We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
論文 参考訳(メタデータ) (2021-02-04T05:21:10Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。