論文の概要: VenoMave: Targeted Poisoning Against Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.10682v3
- Date: Thu, 20 Apr 2023 21:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 19:24:11.210068
- Title: VenoMave: Targeted Poisoning Against Speech Recognition
- Title(参考訳): VenoMave: 音声認識に対するターゲットの毒殺
- Authors: Hojjat Aghakhani, Lea Sch\"onherr, Thorsten Eisenhofer, Dorothea
Kolossa, Thorsten Holz, Christopher Kruegel, and Giovanni Vigna
- Abstract要約: VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
- 参考スコア(独自算出の注目度): 30.448709704880518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable improvements, automatic speech recognition is susceptible
to adversarial perturbations. Compared to standard machine learning
architectures, these attacks are significantly more challenging, especially
since the inputs to a speech recognition system are time series that contain
both acoustic and linguistic properties of speech. Extracting all
recognition-relevant information requires more complex pipelines and an
ensemble of specialized components. Consequently, an attacker needs to consider
the entire pipeline. In this paper, we present VENOMAVE, the first
training-time poisoning attack against speech recognition. Similar to the
predominantly studied evasion attacks, we pursue the same goal: leading the
system to an incorrect and attacker-chosen transcription of a target audio
waveform. In contrast to evasion attacks, however, we assume that the attacker
can only manipulate a small part of the training data without altering the
target audio waveform at runtime. We evaluate our attack on two datasets:
TIDIGITS and Speech Commands. When poisoning less than 0.17% of the dataset,
VENOMAVE achieves attack success rates of more than 80.0%, without access to
the victim's network architecture or hyperparameters. In a more realistic
scenario, when the target audio waveform is played over the air in different
rooms, VENOMAVE maintains a success rate of up to 73.3%. Finally, VENOMAVE
achieves an attack transferability rate of 36.4% between two different model
architectures.
- Abstract(参考訳): 著しい改善にもかかわらず、自動音声認識は対向性摂動に影響を受けやすい。
特に音声認識システムへの入力は、音声の音響的および言語的特性の両方を含む時系列であるため、標準的な機械学習アーキテクチャと比較すると、これらの攻撃は極めて困難である。
すべての認識関連情報を抽出するには、より複雑なパイプラインと特定のコンポーネントのアンサンブルが必要である。
その結果、攻撃者はパイプライン全体を考慮する必要がある。
本稿では,音声認識に対する最初の訓練時間中毒攻撃であるVENOMAVEについて述べる。
主に研究されている回避攻撃と同様に、我々は同じ目標を追求している。
しかし、回避攻撃とは対照的に、攻撃者は実行時にターゲット音声波形を変更することなく、トレーニングデータのごく一部しか操作できないと仮定する。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価する。
データセットの0.17%未満を中毒すると、VENOMAVEは被害者のネットワークアーキテクチャやハイパーパラメータにアクセスせずに80.0%以上の攻撃成功率を達成する。
より現実的なシナリオでは、異なる部屋の空気中でターゲットのオーディオ波形が再生されると、VENOMAVEは73.3%の成功率を維持する。
最後に、VENOMAVEは2つの異なるモデルアーキテクチャ間の攻撃伝達率36.4%を達成する。
関連論文リスト
- SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops [0.0]
Voice Popsは、登録プロセス中に個人固有の音素の発音を区別することを目的としている。
本稿では,VA+VoicePopシステムの音素認識機能をターゲットにした,新たな攻撃手法を提案する。
トレーニングデータセットの20%を毒殺しながら95%以上の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-02-13T18:05:12Z) - Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach [0.0]
本研究は、投資ベースのバックドアアタック(MarketBack)として知られる特定のタイプの攻撃について検討する。
MarketBackは、敵が音声のスタイリスティックな特性を、ばかげた音声認識システムに戦略的に操作するシステムである。
機械学習モデルのセキュリティと整合性は、バックドア攻撃によって深刻に脅かされている。
論文 参考訳(メタデータ) (2024-06-15T19:12:00Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Perceptual-based deep-learning denoiser as a defense against adversarial
attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。
本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。
その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文 参考訳(メタデータ) (2021-07-12T07:00:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - Adversarial Attacks against Neural Networks in Audio Domain: Exploiting
Principal Components [0.0]
今日広く使われている音声とテキストのニューラルネットワークは、敵の攻撃を誤分類する傾向がある。
我々は、Connectionist Temporal Classification Loss Functionを介して敵対的な波形を作成し、Mozillaによって実装された音声からテキストへのニューラルネットワークであるDeepSpeechを攻撃した。
構築した25個の逆波の形式に対して、100%逆成功率(DeepSpeechによるゼロ成功分類)を達成する。
論文 参考訳(メタデータ) (2020-07-14T12:35:03Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。