論文の概要: Noise Masking Attacks and Defenses for Pretrained Speech Models
- arxiv url: http://arxiv.org/abs/2404.02052v1
- Date: Tue, 2 Apr 2024 15:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:49:31.928691
- Title: Noise Masking Attacks and Defenses for Pretrained Speech Models
- Title(参考訳): 事前訓練音声モデルのノイズマスキング攻撃と防御
- Authors: Matthew Jagielski, Om Thakkar, Lun Wang,
- Abstract要約: 音声モデルは、モデルパフォーマンスを改善するために、しばしば機密データに基づいて訓練される。
Amidらによって導入されたノイズマスキング攻撃は,音声の書き起こしを部分的にノイズに置き換えることで自動音声認識(ASR)モデルを攻撃する。
我々はこれらの攻撃をASRモデルを超えて拡張し、事前訓練された音声エンコーダを攻撃する。
- 参考スコア(独自算出の注目度): 22.220812007048423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech models are often trained on sensitive data in order to improve model performance, leading to potential privacy leakage. Our work considers noise masking attacks, introduced by Amid et al. 2022, which attack automatic speech recognition (ASR) models by requesting a transcript of an utterance which is partially replaced with noise. They show that when a record has been seen at training time, the model will transcribe the noisy record with its memorized sensitive transcript. In our work, we extend these attacks beyond ASR models, to attack pretrained speech encoders. Our method fine-tunes the encoder to produce an ASR model, and then performs noise masking on this model, which we find recovers private information from the pretraining data, despite the model never having seen transcripts at pretraining time! We show how to improve the precision of these attacks and investigate a number of countermeasures to our attacks.
- Abstract(参考訳): 音声モデルは、モデルパフォーマンスを改善するために、しばしば機密データに基づいて訓練される。
Amid et al 2022 が導入したノイズマスキング攻撃は,音声の書き起こしを部分的にノイズに置き換えることで自動音声認識(ASR)モデルを攻撃する。
彼らは、トレーニング時に記録が見られたとき、そのモデルは暗記されたセンシティブな書き起こしでノイズの多いレコードを転写することを示した。
我々の研究は、これらの攻撃をASRモデルを超えて拡張し、事前訓練された音声エンコーダを攻撃する。
我々の手法はエンコーダを微調整してASRモデルを生成し、そのモデル上でノイズマスキングを行い、事前学習データからプライベート情報を復元する。
我々は、これらの攻撃の精度を向上させる方法を示し、我々の攻撃に対する多くの対策を調査する。
関連論文リスト
- Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。