論文の概要: There is more than one kind of robustness: Fooling Whisper with
adversarial examples
- arxiv url: http://arxiv.org/abs/2210.17316v2
- Date: Thu, 10 Aug 2023 18:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:54:45.978974
- Title: There is more than one kind of robustness: Fooling Whisper with
adversarial examples
- Title(参考訳): 強靭性には複数の種類がある: 敵の例でWhisperを食う
- Authors: Raphael Olivier and Bhiksha Raj
- Abstract要約: 我々はWhisperのパフォーマンスを劇的に劣化させたり、選択したターゲット文の書き起こしさえできることを示した。
また、Whisper言語検出器を騙すことで、多言語モデルの性能を非常に容易に劣化させることができることを示す。
- 参考スコア(独自算出の注目度): 28.934863462633636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whisper is a recent Automatic Speech Recognition (ASR) model displaying
impressive robustness to both out-of-distribution inputs and random noise. In
this work, we show that this robustness does not carry over to adversarial
noise. We show that we can degrade Whisper performance dramatically, or even
transcribe a target sentence of our choice, by generating very small input
perturbations with Signal Noise Ratio of 35-45dB. We also show that by fooling
the Whisper language detector we can very easily degrade the performance of
multilingual models. These vulnerabilities of a widely popular open-source
model have practical security implications and emphasize the need for
adversarially robust ASR.
- Abstract(参考訳): Whisperは、分布外入力とランダムノイズの両方に対して印象的な堅牢性を示す最近の自動音声認識(ASR)モデルである。
本研究は, この頑健性は, 対向騒音には耐えられないことを示す。
信号雑音比35-45dBの非常に小さな入力摂動を発生させることで,Whisperの性能を劇的に劣化させることができることを示す。
また、Whisper言語検出器を騙すことで、多言語モデルの性能を非常に容易に劣化させることができることを示す。
広く普及しているオープンソースモデルの脆弱性は、現実的なセキュリティ上の意味を持ち、敵対的に堅牢なASRの必要性を強調している。
関連論文リスト
- Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [14.989929439744172]
我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:07:26Z) - Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文 参考訳(メタデータ) (2024-05-09T22:59:23Z) - Stable Unlearnable Example: Enhancing the Robustness of Unlearnable
Examples via Stable Error-Minimizing Noise [31.586389548657205]
データにある種の知覚不能ノイズを加えることにより、モデルの一般化性能を著しく低下させる非学習不可能な例を提案する。
本稿では,時間を要する対向的摂動ではなく,ランダムな摂動に対する防御音を訓練する安定型誤り最小化ノイズ(SEM)を導入する。
SEMは、CIFAR-10、CIFAR-100、ImageNet Subset上で、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-22T01:43:57Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。