論文の概要: A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It
- arxiv url: http://arxiv.org/abs/2104.07815v1
- Date: Thu, 15 Apr 2021 23:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:31:00.276247
- Title: A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It
- Title(参考訳): 分散型asr訓練における話者識別の明確化と対応法
- Authors: Trung Dang, Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Peter Chin,
Fran\c{c}oise Beaufays
- Abstract要約: 学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
- 参考スコア(独自算出の注目度): 3.18475216176047
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end Automatic Speech Recognition (ASR) models are commonly trained
over spoken utterances using optimization methods like Stochastic Gradient
Descent (SGD). In distributed settings like Federated Learning, model training
requires transmission of gradients over a network. In this work, we design the
first method for revealing the identity of the speaker of a training utterance
with access only to a gradient. We propose Hessian-Free Gradients Matching, an
input reconstruction technique that operates without second derivatives of the
loss function (required in prior works), which can be expensive to compute. We
show the effectiveness of our method using the DeepSpeech model architecture,
demonstrating that it is possible to reveal the speaker's identity with 34%
top-1 accuracy (51% top-5 accuracy) on the LibriSpeech dataset. Further, we
study the effect of two well-known techniques, Differentially Private SGD and
Dropout, on the success of our method. We show that a dropout rate of 0.2 can
reduce the speaker identity accuracy to 0% top-1 (0.5% top-5).
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)モデルは、Stochastic Gradient Descent (SGD)のような最適化手法を用いて、音声による発話に対して一般的に訓練される。
フェデレーション学習のような分散環境では、モデルトレーニングはネットワーク上の勾配の伝達を必要とする。
本研究では,学習発話の話者の同一性を明らかにする最初の手法を,勾配のみへのアクセスで設計する。
本研究では,損失関数の第二導関数を必要とせず,計算コストのかかる入力再構成手法であるヘッセン自由勾配マッチングを提案する。
我々は,DeepSpeechモデルアーキテクチャを用いた手法の有効性を示し,LibriSpeechデータセット上で34%のトップ1精度(51%トップ5精度)で話者の身元を明らかにすることができることを示した。
さらに,SGDとDropoutの2つの手法が本手法の成功に及ぼす影響について検討した。
その結果,0.2のドロップアウト率で話者識別精度を0%から0.5%まで下げることができた。
関連論文リスト
- Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Guided contrastive self-supervised pre-training for automatic speech
recognition [16.038298927903632]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、中間潜在表現と与えられたモデルの出力の相互情報を最大化する表現学習法である。
GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。
提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。
論文 参考訳(メタデータ) (2022-10-22T02:38:43Z) - Extracting Targeted Training Data from ASR Models, and How to Mitigate
It [14.82033976002072]
ノイズマスキング(Noss Masking)は、訓練されたASRモデルからトレーニングデータのターゲット部分を抽出する、ブランク式フィリング方式の手法である。
11.8%の精度で、マスク付き訓練発話から正しい名前を抽出できることが示される。
また, テストセットから合成音声と部分的書き起こしを用いた場合においても, 精度が2.5%(名前の成功率47.7%)であることを示す。
論文 参考訳(メタデータ) (2022-04-18T14:43:17Z) - RescoreBERT: Discriminative Speech Recognition Rescoring with BERT [21.763672436079872]
ASRにおける深層指向性事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。
我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、差別的目的なくWERを6.6%/3.4%削減する。
論文 参考訳(メタデータ) (2022-02-02T15:45:26Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。