論文の概要: ILASR: Privacy-Preserving Incremental Learning for AutomaticSpeech
Recognition at Production Scale
- arxiv url: http://arxiv.org/abs/2207.09078v1
- Date: Tue, 19 Jul 2022 05:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:01:29.573866
- Title: ILASR: Privacy-Preserving Incremental Learning for AutomaticSpeech
Recognition at Production Scale
- Title(参考訳): ILASR:生産規模の自動音声認識のためのプライバシ保護インクリメンタルラーニング
- Authors: Gopinath Chennupati, Milind Rao, Gurpreet Chadha, Aaron Eakin, Anirudh
Raju, Gautam Tiwari, Anit Kumar Sahu, Ariya Rastrow, Jasha Droppo, Andy
Oberlin, Buddha Nandanoor, Prahalad Venkataramanan, Zheng Wu, Pankaj Sitpure
- Abstract要約: 本稿では,実運用システムのためのクラウドベースのフレームワークを用いて,自動音声認識(ILASR)のためのインクリメンタル学習のためのプライバシ保護による洞察を実証する。
提案システムでは,ヒトのアノテートラベルが欠如していても,6ヶ月の新たな期間で生産モデルを大幅に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 19.524894956258343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental learning is one paradigm to enable model building and updating at
scale with streaming data. For end-to-end automatic speech recognition (ASR)
tasks, the absence of human annotated labels along with the need for privacy
preserving policies for model building makes it a daunting challenge. Motivated
by these challenges, in this paper we use a cloud based framework for
production systems to demonstrate insights from privacy preserving incremental
learning for automatic speech recognition (ILASR). By privacy preserving, we
mean, usage of ephemeral data which are not human annotated. This system is a
step forward for production levelASR models for incremental/continual learning
that offers near real-time test-bed for experimentation in the cloud for
end-to-end ASR, while adhering to privacy-preserving policies. We show that the
proposed system can improve the production models significantly(3%) over a new
time period of six months even in the absence of human annotated labels with
varying levels of weak supervision and large batch sizes in incremental
learning. This improvement is 20% over test sets with new words and phrases in
the new time period. We demonstrate the effectiveness of model building in a
privacy-preserving incremental fashion for ASR while further exploring the
utility of having an effective teacher model and use of large batch sizes.
- Abstract(参考訳): インクリメンタル学習は、ストリーミングデータで大規模にモデルの構築と更新を可能にするパラダイムのひとつだ。
エンドツーエンドの自動音声認識(ASR)タスクでは、人間のアノテートラベルの欠如と、モデル構築のためのプライバシ保護ポリシーの必要性が大きな課題となっている。
これらの課題に動機づけられて,本論文では,製品システムのためのクラウドベースのフレームワークを用いて,自動音声認識(ilasr)のためのインクリメンタル学習のプライバシ保護からの洞察を実証する。
プライバシー保護によって、人間に注釈が付けられていない短命データの利用が減る。
このシステムは、段階的/連続的な学習のためのプロダクションレベルのASRモデルにおいて、エンドツーエンドのASRのためのクラウド実験のためのほぼリアルタイムなテストベッドを提供すると同時に、プライバシ保護ポリシーに準拠している。
そこで,本システムでは,段階的な学習において,弱い監督レベルと大きなバッチサイズを持つ人間のアノテートラベルが存在しない場合でも,6ヶ月の新たな期間で生産モデルを大幅に改善できることを示す。
この改善は、新しい期間に新しい単語とフレーズを持つテストセットに対して20%である。
本稿では,ASRのプライバシー保護型インクリメンタルなモデル構築の有効性を実証するとともに,効果的な教師モデルと大規模バッチサイズの使用の有用性について検討する。
関連論文リスト
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting [4.220336689294245]
本稿では,タスク関連特徴相関を保ちつつ,効率的にインスタンスを破棄する新しい手法である分散レベル特徴分散(DLFD)を提案する。
提案手法は, 特徴分布を忘れ試料と明確に異なるように最適化し, 単一の学習エポック内で有効結果を得る。
論文 参考訳(メタデータ) (2024-09-23T06:51:10Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Online Continual Learning of End-to-End Speech Recognition Models [29.931427687979532]
継続的な学習は、新しいデータから学び続けることを目的としています。
オンライン連続学習と選択的サンプリング戦略により,モデルをスクラッチから再学習するのと同様の精度を維持できることを示す。
論文 参考訳(メタデータ) (2022-07-11T05:35:06Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。