論文の概要: VenoMave: Targeted Poisoning Against Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.10682v2
- Date: Mon, 25 Oct 2021 17:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:01:23.606650
- Title: VenoMave: Targeted Poisoning Against Speech Recognition
- Title(参考訳): VenoMave: 音声認識に対するターゲットの毒殺
- Authors: Hojjat Aghakhani, Lea Sch\"onherr, Thorsten Eisenhofer, Dorothea
Kolossa, Thorsten Holz, Christopher Kruegel, and Giovanni Vigna
- Abstract要約: 自動音声認識(ASR)に対する最初のデータポゾン攻撃について述べる。
本稿では,桁数列を検出するASRシステムに対する攻撃を評価する。
ASRに対するデータ汚染攻撃は真の脅威であると結論付けている。
- 参考スコア(独自算出の注目度): 30.448709704880518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The wide adoption of Automatic Speech Recognition (ASR) remarkably enhanced
human-machine interaction. Prior research has demonstrated that modern ASR
systems are susceptible to adversarial examples, i.e., malicious audio inputs
that lead to misclassification by the victim's model at run time. The research
question of whether ASR systems are also vulnerable to data-poisoning attacks
is still unanswered. In such an attack, a manipulation happens during the
training phase: an adversary injects malicious inputs into the training set to
compromise the neural network's integrity and performance. Prior work in the
image domain demonstrated several types of data-poisoning attacks, but these
results cannot directly be applied to the audio domain. In this paper, we
present the first data-poisoning attack against ASR, called VenoMave. We
evaluate our attack on an ASR system that detects sequences of digits. When
poisoning only 0.17% of the dataset on average, we achieve an attack success
rate of 86.67%. To demonstrate the practical feasibility of our attack, we also
evaluate if the target audio waveform can be played over the air via simulated
room transmissions. In this more realistic threat model, VenoMave still
maintains a success rate up to 73.33%. We further extend our evaluation to the
Speech Commands corpus and demonstrate the scalability of VenoMave to a larger
vocabulary. During a transcription test with human listeners, we verify that
more than 85% of the original text of poisons can be correctly transcribed. We
conclude that data-poisoning attacks against ASR represent a real threat, and
we are able to perform poisoning for arbitrary target input files while the
crafted poison samples remain inconspicuous.
- Abstract(参考訳): 音声認識(ASR)の普及により、人間と機械の相互作用が著しく向上した。
以前の研究では、現代のASRシステムは敵の例、すなわち、被害者のモデルが実行時に誤分類する悪意のあるオーディオ入力に影響を受けやすいことが示されている。
ASRシステムもデータ中毒攻撃に弱いのかという研究の問題は、まだ答えは得られていない。
敵は、ニューラルネットワークの完全性とパフォーマンスを損なうために、トレーニングセットに悪意のある入力を注入する。
画像領域での以前の作業は、いくつかのタイプのデータポゾン攻撃を示したが、これらの結果は音声領域に直接適用することはできない。
本稿では,VenoMaveと呼ばれるASRに対する最初のデータポゾン攻撃について述べる。
我々は,桁列を検出するASRシステムに対する攻撃を評価する。
平均的なデータセットの0.17%しか毒を飲まない場合、攻撃成功率は86.67%である。
また, 本攻撃の実用性を示すため, 対象音声波形をシミュレーションルーム伝送により空中再生可能かどうかについて検討した。
このより現実的な脅威モデルでは、VenoMaveは73.33%の成功率を維持している。
我々はさらに音声コマンドコーパスに評価を拡張し、VenoMaveのスケーラビリティをより大きな語彙に拡張した。
ヒトの聴取者による転写試験では、原典の85%以上が正しく転写可能であることが確認された。
我々は,asrに対するデータポジショニング攻撃は真の脅威であり,製造した毒物サンプルが目立たない間に任意の標的入力ファイルに対する毒殺が可能であると結論づけた。
関連論文リスト
- Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach [0.0]
本研究は、投資ベースのバックドアアタック(MarketBack)として知られる特定のタイプの攻撃について検討する。
MarketBackは、敵が音声のスタイリスティックな特性を、ばかげた音声認識システムに戦略的に操作するシステムである。
機械学習モデルのセキュリティと整合性は、バックドア攻撃によって深刻に脅かされている。
論文 参考訳(メタデータ) (2024-06-15T19:12:00Z) - Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。
脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文 参考訳(メタデータ) (2022-12-30T08:41:06Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Perceptual-based deep-learning denoiser as a defense against adversarial
attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。
本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。
その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文 参考訳(メタデータ) (2021-07-12T07:00:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - Adversarial Attacks against Neural Networks in Audio Domain: Exploiting
Principal Components [0.0]
今日広く使われている音声とテキストのニューラルネットワークは、敵の攻撃を誤分類する傾向がある。
我々は、Connectionist Temporal Classification Loss Functionを介して敵対的な波形を作成し、Mozillaによって実装された音声からテキストへのニューラルネットワークであるDeepSpeechを攻撃した。
構築した25個の逆波の形式に対して、100%逆成功率(DeepSpeechによるゼロ成功分類)を達成する。
論文 参考訳(メタデータ) (2020-07-14T12:35:03Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。