Fugu-MT 論文翻訳(概要): Noise Masking Attacks and Defenses for Pretrained Speech Models

論文の概要: Noise Masking Attacks and Defenses for Pretrained Speech Models

arxiv url: http://arxiv.org/abs/2404.02052v1
Date: Tue, 2 Apr 2024 15:49:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 15:49:31.928691
Title: Noise Masking Attacks and Defenses for Pretrained Speech Models
Title（参考訳）: 事前訓練音声モデルのノイズマスキング攻撃と防御
Authors: Matthew Jagielski, Om Thakkar, Lun Wang,
Abstract要約: 音声モデルは、モデルパフォーマンスを改善するために、しばしば機密データに基づいて訓練される。 Amidらによって導入されたノイズマスキング攻撃は,音声の書き起こしを部分的にノイズに置き換えることで自動音声認識(ASR)モデルを攻撃する。我々はこれらの攻撃をASRモデルを超えて拡張し、事前訓練された音声エンコーダを攻撃する。
参考スコア（独自算出の注目度）: 22.220812007048423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech models are often trained on sensitive data in order to improve model performance, leading to potential privacy leakage. Our work considers noise masking attacks, introduced by Amid et al. 2022, which attack automatic speech recognition (ASR) models by requesting a transcript of an utterance which is partially replaced with noise. They show that when a record has been seen at training time, the model will transcribe the noisy record with its memorized sensitive transcript. In our work, we extend these attacks beyond ASR models, to attack pretrained speech encoders. Our method fine-tunes the encoder to produce an ASR model, and then performs noise masking on this model, which we find recovers private information from the pretraining data, despite the model never having seen transcripts at pretraining time! We show how to improve the precision of these attacks and investigate a number of countermeasures to our attacks.
Abstract（参考訳）: 音声モデルは、モデルパフォーマンスを改善するために、しばしば機密データに基づいて訓練される。 Amid et al 2022 が導入したノイズマスキング攻撃は,音声の書き起こしを部分的にノイズに置き換えることで自動音声認識(ASR)モデルを攻撃する。彼らは、トレーニング時に記録が見られたとき、そのモデルは暗記されたセンシティブな書き起こしでノイズの多いレコードを転写することを示した。我々の研究は、これらの攻撃をASRモデルを超えて拡張し、事前訓練された音声エンコーダを攻撃する。我々の手法はエンコーダを微調整してASRモデルを生成し、そのモデル上でノイズマスキングを行い、事前学習データからプライベート情報を復元する。我々は、これらの攻撃の精度を向上させる方法を示し、我々の攻撃に対する多くの対策を調査する。

関連論文リスト

Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。 speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-31T05:17:17Z)
Adversarial Representation Learning for Robust Privacy Preservation in Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文参考訳（メタデータ） (2023-04-29T08:39:55Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。 SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文参考訳（メタデータ） (2022-10-21T02:07:50Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文参考訳（メタデータ） (2021-12-14T13:50:23Z)
Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文参考訳（メタデータ） (2021-04-05T17:17:55Z)
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文参考訳（メタデータ） (2021-02-17T11:40:42Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)
Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。 ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文参考訳（メタデータ） (2020-06-05T03:03:06Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)
Backdoor Attacks against Transfer Learning with Pre-trained Deep Learning Models [23.48763375455514]
転送学習は、精度の高いTextitStudentモデルの実現可能性と高速なカスタマイズのための効果的なソリューションを提供する。多くの事前訓練された教師モデルは公開されており、公開プラットフォームによって維持されており、バックドア攻撃に対する脆弱性が増大している。本研究では,教師の知識を活かした画像データと時系列データの両方で学習タスクを伝達するバックドアの脅威を実証する。
論文参考訳（メタデータ） (2020-01-10T01:31:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。