論文の概要: Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2012.05481v1
- Date: Thu, 10 Dec 2020 06:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 22:15:01.432373
- Title: Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition
- Title(参考訳): 音声認識のための統一ストリームと非ストリーミング2パスエンドツーエンドモデル
- Authors: Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang,
Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei
- Abstract要約: ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
- 参考スコア(独自算出の注目度): 19.971343876930767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel two-pass approach to unify streaming and
non-streaming end-to-end (E2E) speech recognition in a single model. Our model
adopts the hybrid CTC/attention architecture, in which the conformer layers in
the encoder are modified. We propose a dynamic chunk-based attention strategy
to allow arbitrary right context length. At inference time, the CTC decoder
generates n-best hypotheses in a streaming way. The inference latency could be
easily controlled by only changing the chunk size. The CTC hypotheses are then
rescored by the attention decoder to get the final result. This efficient
rescoring process causes very little sentence-level latency. Our experiments on
the open 170-hour AISHELL-1 dataset show that, the proposed method can unify
the streaming and non-streaming model simply and efficiently. On the AISHELL-1
test set, our unified model achieves 5.60% relative character error rate (CER)
reduction in non-streaming ASR compared to a standard non-streaming
transformer. The same model achieves 5.42% CER with 640ms latency in a
streaming ASR system.
- Abstract(参考訳): 本稿では,ストリーミングと非ストリーミングのエンドツーエンド(E2E)音声認識を単一モデルで統一する新しい2パス手法を提案する。
このモデルでは,エンコーダのコンフォメータ層を変更するハイブリッドCTC/アテンションアーキテクチャを採用している。
任意のコンテキスト長を許容する動的チャンクに基づく注意戦略を提案する。
推論時、CTCデコーダはストリーミング方式でn-best仮説を生成する。
推測遅延はチャンクサイズを変更するだけで簡単に制御できる。
CTC仮説は、最終的な結果を得るためにアテンションデコーダによって再描画される。
この効率的な再描画プロセスは、文レベルの遅延を非常に少なくする。
オープンな170時間AISHELL-1データセットに対する実験により,提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統合できることを示した。
AISHELL-1テストセットでは、標準の非ストリーミング変換器と比較して、ASRの相対的文字誤り率(CER)が5.60%減少する。
同じモデルはストリーミングasrシステムで640msのレイテンシを持つ5.42%のcerを実現する。
関連論文リスト
- Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。