論文の概要: Pushing the Limits of Non-Autoregressive Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.03416v1
- Date: Wed, 7 Apr 2021 22:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:16:27.647192
- Title: Pushing the Limits of Non-Autoregressive Speech Recognition
- Title(参考訳): 非自己回帰音声認識の限界を押し上げる
- Authors: Edwin G. Ng, Chung-Cheng Chiu, Yu Zhang, William Chan
- Abstract要約: 私たちは、複数のデータセットに対する非自動回帰状態の限界を推し進めます。
私たちは、SpecAugmentとwav2vec2プリトレーニングを備えた巨大なコンフォーマーニューラルネットワークアーキテクチャでCTCを活用します。
We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。
- 参考スコア(独自算出の注目度): 24.299771352483322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We combine recent advancements in end-to-end speech recognition to
non-autoregressive automatic speech recognition. We push the limits of
non-autoregressive state-of-the-art results for multiple datasets: LibriSpeech,
Fisher+Switchboard and Wall Street Journal. Key to our recipe, we leverage CTC
on giant Conformer neural network architectures with SpecAugment and wav2vec2
pre-training. We achieve 1.8%/3.6% WER on LibriSpeech test/test-other sets,
5.1%/9.8% WER on Switchboard, and 3.4% on the Wall Street Journal, all without
a language model.
- Abstract(参考訳): エンドツーエンド音声認識の最近の進歩と非自己回帰型自動音声認識の併用について述べる。
複数のデータセット – librispeech, fisher+switchboard, wall street journal – に対して,非自己回帰的な最先端結果の限界を押し上げています。
レシピの鍵となるのは、SpecAugmentとwav2vec2事前トレーニングによる巨大なConformerニューラルネットワークアーキテクチャのCTCを活用することです。
We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。
関連論文リスト
- Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
論文 参考訳(メタデータ) (2021-04-05T20:13:36Z) - Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval [13.40010612226968]
共同表現学習のプロキシとして,音声に基づく画像検索が研究されている。
音声に基づく検索が実際にどれだけうまく機能するかは不明だ。
音声の自発的,アクセント的,あるいは自動書き起こしが難しい場合には,asr-to-textエンコーディングのカスケードを克服できる。
論文 参考訳(メタデータ) (2021-04-05T13:11:40Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z) - Leveraging End-to-End Speech Recognition with Neural Architecture Search [0.0]
ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
論文 参考訳(メタデータ) (2019-12-11T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。