論文の概要: Pushing the Limits of Non-Autoregressive Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.03416v1
- Date: Wed, 7 Apr 2021 22:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:16:27.647192
- Title: Pushing the Limits of Non-Autoregressive Speech Recognition
- Title(参考訳): 非自己回帰音声認識の限界を押し上げる
- Authors: Edwin G. Ng, Chung-Cheng Chiu, Yu Zhang, William Chan
- Abstract要約: 私たちは、複数のデータセットに対する非自動回帰状態の限界を推し進めます。
私たちは、SpecAugmentとwav2vec2プリトレーニングを備えた巨大なコンフォーマーニューラルネットワークアーキテクチャでCTCを活用します。
We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。
- 参考スコア(独自算出の注目度): 24.299771352483322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We combine recent advancements in end-to-end speech recognition to
non-autoregressive automatic speech recognition. We push the limits of
non-autoregressive state-of-the-art results for multiple datasets: LibriSpeech,
Fisher+Switchboard and Wall Street Journal. Key to our recipe, we leverage CTC
on giant Conformer neural network architectures with SpecAugment and wav2vec2
pre-training. We achieve 1.8%/3.6% WER on LibriSpeech test/test-other sets,
5.1%/9.8% WER on Switchboard, and 3.4% on the Wall Street Journal, all without
a language model.
- Abstract(参考訳): エンドツーエンド音声認識の最近の進歩と非自己回帰型自動音声認識の併用について述べる。
複数のデータセット – librispeech, fisher+switchboard, wall street journal – に対して,非自己回帰的な最先端結果の限界を押し上げています。
レシピの鍵となるのは、SpecAugmentとwav2vec2事前トレーニングによる巨大なConformerニューラルネットワークアーキテクチャのCTCを活用することです。
We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
論文 参考訳(メタデータ) (2021-04-05T20:13:36Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z) - Leveraging End-to-End Speech Recognition with Neural Architecture Search [0.0]
ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
論文 参考訳(メタデータ) (2019-12-11T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。