論文の概要: Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2010.10504v2
- Date: Wed, 20 Jul 2022 22:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:05:25.775228
- Title: Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition
- Title(参考訳): 自動音声認識における半教師あり学習の限界を押し上げる
- Authors: Yu Zhang, James Qin, Daniel S. Park, Wei Han, Chung-Cheng Chiu,
Ruoming Pang, Quoc V. Le and Yonghui Wu
- Abstract要約: 我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
- 参考スコア(独自算出の注目度): 97.44056170380726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We employ a combination of recent developments in semi-supervised learning
for automatic speech recognition to obtain state-of-the-art results on
LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More
precisely, we carry out noisy student training with SpecAugment using giant
Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we
are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech
test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.
- Abstract(参考訳): 我々は、Libri-Lightデータセットのラベルなし音声を利用して、LibriSpeechの最先端結果を得るために、半教師付き学習の最近の発展を自動音声認識に活用する。
より正確には、wav2vec 2.0事前学習を用いて、巨大なConformerモデルを用いてSpecAugmentを用いてノイズの多い学生訓練を行う。
これにより、現在最先端のwers 1.7%/3.3%に対して、librispeechテスト/テストセットで1.4%/2.6%のワードエラーレート(wers)を実現できる。
関連論文リスト
- Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Pushing the Limits of Non-Autoregressive Speech Recognition [24.299771352483322]
私たちは、複数のデータセットに対する非自動回帰状態の限界を推し進めます。
私たちは、SpecAugmentとwav2vec2プリトレーニングを備えた巨大なコンフォーマーニューラルネットワークアーキテクチャでCTCを活用します。
We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。
論文 参考訳(メタデータ) (2021-04-07T22:17:20Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Self-training and Pre-training are Complementary for Speech Recognition [64.85342993297677]
ラベルなしデータを用いた音声認識システムを改善するための効果的な手法として,自己学習と教師なし事前学習が登場している。
擬似ラベル付けとwav2vec 2.0による事前学習は,様々なラベル付きデータ設定において補完的であることを示す。
論文 参考訳(メタデータ) (2020-10-22T04:15:37Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。