論文の概要: Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework
- arxiv url: http://arxiv.org/abs/2111.03777v1
- Date: Sat, 6 Nov 2021 02:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 06:04:05.626513
- Title: Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework
- Title(参考訳): 連合学習フレームワークにおける自動音声認識音響モデルのプライバシー攻撃
- Authors: Natalia Tomashenko, Salima Mdhaffar, Marc Tommasi, Yannick Est\`eve,
Jean-Fran\c{c}ois Bonastre
- Abstract要約: Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
- 参考スコア(独自算出の注目度): 5.1229352884025845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates methods to effectively retrieve speaker information
from the personalized speaker adapted neural network acoustic models (AMs) in
automatic speech recognition (ASR). This problem is especially important in the
context of federated learning of ASR acoustic models where a global model is
learnt on the server based on the updates received from multiple clients. We
propose an approach to analyze information in neural network AMs based on a
neural network footprint on the so-called Indicator dataset. Using this method,
we develop two attack models that aim to infer speaker identity from the
updated personalized models without access to the actual users' speech data.
Experiments on the TED-LIUM 3 corpus demonstrate that the proposed approaches
are very effective and can provide equal error rate (EER) of 1-2%.
- Abstract(参考訳): 本稿では、自動音声認識(ASR)において、パーソナライズされた話者適応ニューラルネットワーク音響モデル(AM)から話者情報を効果的に検索する方法を検討する。
この問題は、複数のクライアントから受信した更新に基づいてグローバルモデルがサーバ上で学習されるASR音響モデルの連合学習において特に重要である。
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
本研究では,ユーザの発話データにアクセスせずに,更新されたパーソナライズモデルから話者識別を推測することを目的とした2つの攻撃モデルを開発した。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことを示した。
関連論文リスト
- AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Federated Learning for ASR based on Wav2vec 2.0 [4.711492191554342]
自己監督によって事前訓練されたwav2vec 2.0モデルに基づいて,連合学習を用いてASRモデルを訓練する。
実験により、そのようなモデルは言語モデルを用いることなく、公式のTED-Lium 3テストセットで10.92%の単語誤り率が得られることが示された。
また,連合学習への参加による話者のASRパフォーマンスの分析を行った。
論文 参考訳(メタデータ) (2023-02-20T18:36:46Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition [5.1229352884025845]
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
論文 参考訳(メタデータ) (2021-11-07T22:17:52Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。