論文の概要: WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2104.03587v1
- Date: Thu, 8 Apr 2021 07:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:56:17.815421
- Title: WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition
- Title(参考訳): WNARS:WFSTに基づく非自己回帰ストリーミングエンドツーエンド音声認識
- Authors: Zhichao Wang, Wenwen Yang, Pan Zhou, Wei Chen
- Abstract要約: 本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
- 参考スコア(独自算出の注目度): 59.975078145303605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, attention-based encoder-decoder (AED) end-to-end (E2E) models have
drawn more and more attention in the field of automatic speech recognition
(ASR). AED models, however, still have drawbacks when deploying in commercial
applications. Autoregressive beam search decoding makes it inefficient for
high-concurrency applications. It is also inconvenient to integrate external
word-level language models. The most important thing is that AED models are
difficult for streaming recognition due to global attention mechanism. In this
paper, we propose a novel framework, namely WNARS, using hybrid CTC-attention
AED models and weighted finite-state transducers (WFST) to solve these problems
together. We switch from autoregressive beam search to CTC branch decoding,
which performs first-pass decoding with WFST in chunk-wise streaming way. The
decoder branch then performs second-pass rescoring on the generated hypotheses
non-autoregressively. On the AISHELL-1 task, our WNARS achieves a character
error rate of 5.22% with 640ms latency, to the best of our knowledge, which is
the state-of-the-art performance for online ASR. Further experiments on our
10,000-hour Mandarin task show the proposed method achieves more than 20%
improvements with 50% latency compared to a strong TDNN-BLSTM lattice-free MMI
baseline.
- Abstract(参考訳): 近年,自動音声認識(ASR)分野において,注目型エンコーダデコーダ(AED)のエンド・ツー・エンド(E2E)モデルが注目されている。
しかし、AEDモデルは商用アプリケーションにデプロイする際の欠点がある。
自己回帰ビームサーチデコーディングは、高速アプリケーションでは非効率である。
また、外部語レベルの言語モデルを統合することも不便である。
最も重要なことは、AEDモデルがグローバルなアテンションメカニズムのためにストリーミング認識が困難であることです。
本稿では,これらの問題を解決するために,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサ(WFST)を用いた新しいフレームワークWNARSを提案する。
我々は、自己回帰ビーム探索からCTC分岐復号に切り換え、WFSTでチャンクワイズストリーミングでファーストパス復号を行う。
そして、デコーダブランチは、生成した仮説を非自己回帰的に第2パス復元する。
AISHELL-1タスクでは、WNARSは640msのレイテンシで5.22%の文字エラー率を達成しています。
提案手法は,強いTDNN-BLSTM格子のないMMIベースラインと比較して,50%レイテンシで20%以上の改善を実現している。
関連論文リスト
- Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。