論文の概要: ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech
Recognition
- arxiv url: http://arxiv.org/abs/2005.10469v1
- Date: Thu, 21 May 2020 05:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:57:44.346139
- Title: ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech
Recognition
- Title(参考訳): ASAPP-ASR:SOTA音声認識のためのマルチストリームCNNと自己認識SRU
- Authors: Jing Pan, Joshua Shapiro, Jeremy Wohlwend, Kyu J. Han, Tao Lei and Tao
Ma
- Abstract要約: 本稿では,2つの新しいニューラルネットワークアーキテクチャを持つLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。
ハイブリッドASRフレームワークでは、マルチストリームCNN音響モデルが複数の並列パイプラインにおける音声フレームの入力を処理する。
さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。
- 参考スコア(独自算出の注目度): 21.554020483837096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present state-of-the-art (SOTA) performance on the
LibriSpeech corpus with two novel neural network architectures, a multistream
CNN for acoustic modeling and a self-attentive simple recurrent unit (SRU) for
language modeling. In the hybrid ASR framework, the multistream CNN acoustic
model processes an input of speech frames in multiple parallel pipelines where
each stream has a unique dilation rate for diversity. Trained with the
SpecAugment data augmentation method, it achieves relative word error rate
(WER) improvements of 4% on test-clean and 14% on test-other. We further
improve the performance via N-best rescoring using a 24-layer self-attentive
SRU language model, achieving WERs of 1.75% on test-clean and 4.46% on
test-other.
- Abstract(参考訳): 本稿では,2つの新しいニューラルネットワークアーキテクチャ,音響モデリング用マルチストリームCNN,言語モデリング用自励的単純繰り返しユニット(SRU)を備えるLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。
ハイブリッドasrフレームワークでは、マルチストリームcnn音響モデルは、各ストリームが多様性のためにユニークな拡張率を持つ複数の並列パイプラインで音声フレームの入力を処理する。
仕様データ拡張法で訓練され、相対的な単語誤り率(wer)がテストクリーンで4%、テストその他で14%改善される。
さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Multistream CNN for Robust Acoustic Modeling [17.155489701060542]
マルチストリームCNNは音声認識タスクにおけるロバスト音響モデリングのための新しいニューラルネットワークアーキテクチャである。
我々は、カルディの最良のTDNN-Fモデルに対して、様々なデータセットで一貫した改善を示す。
リアルタイム係数では、マルチストリームCNNはベースラインのTDNN-Fを15%上回る。
論文 参考訳(メタデータ) (2020-05-21T05:26:15Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。