論文の概要: Watch What You Pretrain For: Targeted, Transferable Adversarial Examples
on Self-Supervised Speech Recognition models
- arxiv url: http://arxiv.org/abs/2209.13523v2
- Date: Thu, 29 Sep 2022 13:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 23:23:24.383251
- Title: Watch What You Pretrain For: Targeted, Transferable Adversarial Examples
on Self-Supervised Speech Recognition models
- Title(参考訳): 事前学習:自己監督型音声認識モデルにおけるターゲット付き、転送可能な敵例
- Authors: Raphael Olivier, Hadi Abdullah and Bhiksha Raj
- Abstract要約: 攻撃対象の敵攻撃は、自動音声認識システムに攻撃テキストを出力させる音声サンプルを生成する。
近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。
現代のASRアーキテクチャ、特にセルフ・スーパーバイザード・ラーニングに基づくアーキテクチャは、実際にトランスファービリティーに対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 27.414693266500603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A targeted adversarial attack produces audio samples that can force an
Automatic Speech Recognition (ASR) system to output attacker-chosen text. To
exploit ASR models in real-world, black-box settings, an adversary can leverage
the transferability property, i.e. that an adversarial sample produced for a
proxy ASR can also fool a different remote ASR. However recent work has shown
that transferability against large ASR models is very difficult. In this work,
we show that modern ASR architectures, specifically ones based on
Self-Supervised Learning, are in fact vulnerable to transferability. We
successfully demonstrate this phenomenon by evaluating state-of-the-art
self-supervised ASR models like Wav2Vec2, HuBERT, Data2Vec and WavLM. We show
that with low-level additive noise achieving a 30dB Signal-Noise Ratio, we can
achieve target transferability with up to 80% accuracy. Next, we 1) use an
ablation study to show that Self-Supervised learning is the main cause of that
phenomenon, and 2) we provide an explanation for this phenomenon. Through this
we show that modern ASR architectures are uniquely vulnerable to adversarial
security threats.
- Abstract(参考訳): 攻撃対象の敵攻撃は音声サンプルを生成し、ASR(Automatic Speech Recognition)システムに攻撃テキストを出力させる。
現実のブラックボックス設定において、asrモデルを利用するために、敵は転送可能性特性、すなわちプロキシasrのために生成された敵のサンプルを別のリモートasrを騙すことができる。
しかし、近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。
本研究では,近年のASRアーキテクチャ,特に自己監督学習に基づくアーキテクチャは,実際にトランスファービリティに脆弱であることを示す。
我々は、Wav2Vec2、HuBERT、Data2Vec、WavLMといった最先端の自己教師型ASRモデルを評価することで、この現象の実証に成功した。
低レベルの付加ノイズが30dbの信号-ノイズ比を達成することで、最大80%の精度でターゲット転送性を達成できることを示す。
次に私たちは
1) Ablation study を用いて、自己指導型学習がその現象の主な原因であることを示す。
2) この現象を説明する。
これにより、現代のASRアーキテクチャは、敵のセキュリティ脅威に対してユニークに脆弱であることを示す。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Sequential Randomized Smoothing for Adversarially Robust Speech
Recognition [26.96883887938093]
我々の最強の防御力は、難聴のノイズを使用する全ての攻撃に対して堅牢であり、非常に高い歪みでしか破壊できないことを示す。
本稿では, 摂動に頑健なASRモデルを設計するために, 拡張やROVER投票といった音声固有のツールを活用することで, これらの課題を克服する。
論文 参考訳(メタデータ) (2021-11-05T21:51:40Z) - SoK: A Modularized Approach to Study the Security of Automatic Speech
Recognition Systems [13.553395767144284]
我々は、ASRセキュリティのための知識の体系化と、モジュール化されたワークフローに基づく既存の作業の包括的分類を提供する。
本稿では,この領域の研究を,画像認識システム(irs)におけるセキュリティに関する研究と一致させる。
これらの類似性により、IRSが提案する攻撃と防衛ソリューションのスペクトルに基づいて、ASRセキュリティにおける既存の文献を体系的に研究することができる。
対照的に、それらの違い、特にIRSと比較してASRの複雑さは、ASRセキュリティのユニークな課題と機会を学ぶのに役立ちます。
論文 参考訳(メタデータ) (2021-03-19T06:24:04Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。