論文の概要: An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.05614v1
- Date: Tue, 11 Oct 2022 16:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:12:32.107286
- Title: An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための教師アンサンブル学習のプライベートアグリゲーションに関する実験的研究
- Authors: Chao-Han Huck Yang, I-Fan Chen, Andreas Stolcke, Sabato Marco
Siniscalchi, Chin-Hui Lee
- Abstract要約: 差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
- 参考スコア(独自算出の注目度): 51.232523987916636
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Differential privacy (DP) is one data protection avenue to safeguard user
information used for training deep models by imposing noisy distortion on
privacy data. Such a noise perturbation often results in a severe performance
degradation in automatic speech recognition (ASR) in order to meet a privacy
budget $\varepsilon$. Private aggregation of teacher ensemble (PATE) utilizes
ensemble probabilities to improve ASR accuracy when dealing with the noise
effects controlled by small values of $\varepsilon$. In this work, we extend
PATE learning to work with dynamic patterns, namely speech, and perform one
very first experimental study on ASR to avoid acoustic data leakage. We
evaluate three end-to-end deep models, including LAS, hybrid attention/CTC, and
RNN transducer, on the open-source LibriSpeech and TIMIT corpora. PATE
learning-enhanced ASR models outperform the benchmark DP-SGD mechanisms,
especially under strict DP budgets, giving relative word error rate reductions
between 26.2% and 27.5% for RNN transducer model evaluated with LibriSpeech. We
also introduce another DP-preserving ASR solution with public speech corpus
pre-training.
- Abstract(参考訳): differential privacy (dp) は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザ情報を保護するための1つのデータ保護手段である。
このようなノイズの摂動は、プライバシー予算$\varepsilon$を満たすために、自動音声認識(asr)において深刻な性能低下をもたらす。
教師アンサンブル(pate)のプライベートアグリゲーションは、$\varepsilon$の小さな値で制御されるノイズ効果を扱う際にasrの精度を向上させるためにアンサンブル確率を利用する。
本研究では,pate学習を動的パターン,すなわち音声に拡張し,音響データの漏洩を回避するためにasrについて,最初の実験を行った。
我々は、オープンソースのLibriSpeechとTIMITコーパスを用いて、LAS、ハイブリッドアテンション/CTC、RNNトランスデューサを含む3つのエンドツーエンドディープモデルを評価する。
PATE学習強化型ASRモデルは、特に厳格なDP予算下ではDP-SGDの基準よりも優れており、LibriSpeechで評価されたRNNトランスデューサモデルの単語誤り率を26.2%から27.5%削減した。
また,パブリック音声コーパスを事前学習したDP保存型ASRソリューションも導入した。
関連論文リスト
- Training Large ASR Encoders with Differential Privacy [18.624449993983106]
大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。
大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。
本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクにおいて,その性能について検討する。
論文 参考訳(メタデータ) (2024-09-21T00:01:49Z) - Differentially Private Adapters for Parameter Efficient Acoustic
Modeling [24.72748979633543]
従来の適応方式に雑音の多い教師と学生のアンサンブルを導入する。
凍結事前学習音響モデルの層間に残留アダプタを挿入する。
我々の解は、RAを用いてトレーニング可能なパラメータの数を97.5%削減する。
論文 参考訳(メタデータ) (2023-05-19T00:36:43Z) - An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling
to Differential Privacy Preserving Speech Recognition [51.20130423303659]
本稿では,Poissonサブサンプルを用いたアンサンブル学習フレームワークを提案する。
DP下での強化を通じて、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を受けない。
提案手法は,<i>Poisson sub-sampling</i>によるプライバシ予算の増幅を行い,同じレベルのプライバシ予算を達成するためにノイズの少ないターゲット予測モデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-12T16:34:08Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。