論文の概要: Improved Noisy Student Training for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09629v2
- Date: Thu, 29 Oct 2020 23:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:42:16.297364
- Title: Improved Noisy Student Training for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための雑音学習の改善
- Authors: Daniel S. Park, Yu Zhang, Ye Jia, Wei Han, Chung-Cheng Chiu, Bo Li,
Yonghui Wu and Quoc V. Le
- Abstract要約: 雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
- 参考スコア(独自算出の注目度): 89.8397907990268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a semi-supervised learning method known as "noisy student training"
has been shown to improve image classification performance of deep networks
significantly. Noisy student training is an iterative self-training method that
leverages augmentation to improve network performance. In this work, we adapt
and improve noisy student training for automatic speech recognition, employing
(adaptive) SpecAugment as the augmentation method. We find effective methods to
filter, balance and augment the data generated in between self-training
iterations. By doing so, we are able to obtain word error rates (WERs)
4.2%/8.6% on the clean/noisy LibriSpeech test sets by only using the clean 100h
subset of LibriSpeech as the supervised set and the rest (860h) as the
unlabeled set. Furthermore, we are able to achieve WERs 1.7%/3.4% on the
clean/noisy LibriSpeech test sets by using the unlab-60k subset of LibriLight
as the unlabeled set for LibriSpeech 960h. We are thus able to improve upon the
previous state-of-the-art clean/noisy test WERs achieved on LibriSpeech 100h
(4.74%/12.20%) and LibriSpeech (1.9%/4.1%).
- Abstract(参考訳): 近年,深層ネットワークの画像分類性能を著しく向上させるため,半教師付き学習手法「ノイズの多い学生訓練」が提案されている。
ノイズのある学生トレーニングは、ネットワークパフォーマンスを改善するために強化を利用する反復的な自己学習手法である。
本研究は,ノイズの多い学生の学習を自動音声認識に適応・改善し,(適応)仕様を補足手法として活用する。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
これにより、教師付き集合としてlibrispeechのclean 100hサブセットとラベル付き集合として残り(860h)のみを用いることで、クリーン/ノイジーlibrispeechテストセットにおける単語誤り率(wers)4.2%/8.6%を得ることができる。
さらに、librilightのunlab-60kサブセットをlibrispeech 960hのラベルなしセットとして使用することで、クリーン/ノイジーlibrispeechテストセットでwers 1.7%/3.4%を達成することができる。
これにより、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
関連論文リスト
- Improving Speech Recognition on Noisy Speech via Speech Enhancement with
Multi-Discriminators CycleGAN [41.88097793717185]
本稿では,入力音声の雑音を低減するために,複数識別器CycleGANという新しい手法を提案する。
トレーニングデータの均質な部分集合上で複数のジェネレータを訓練することは、訓練データに対して1つのジェネレータを訓練するよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-12T19:56:34Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Self-training and Pre-training are Complementary for Speech Recognition [64.85342993297677]
ラベルなしデータを用いた音声認識システムを改善するための効果的な手法として,自己学習と教師なし事前学習が登場している。
擬似ラベル付けとwav2vec 2.0による事前学習は,様々なラベル付きデータ設定において補完的であることを示す。
論文 参考訳(メタデータ) (2020-10-22T04:15:37Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。