論文の概要: On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode
- arxiv url: http://arxiv.org/abs/2206.12829v1
- Date: Sun, 26 Jun 2022 09:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:59:11.709674
- Title: On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode
- Title(参考訳): スタンドアロン・リコーリングモードにおける注意に基づくエンドツーエンド音声認識のためのエンコーダの比較
- Authors: Raviraj Joshi, Subodh Kumar
- Abstract要約: 非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
- 参考スコア(独自算出の注目度): 1.7704011486040847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The streaming automatic speech recognition (ASR) models are more popular and
suitable for voice-based applications. However, non-streaming models provide
better performance as they look at the entire audio context. To leverage the
benefits of the non-streaming model in streaming applications like voice
search, it is commonly used in second pass re-scoring mode. The candidate
hypothesis generated using steaming models is re-scored using a non-streaming
model. In this work, we evaluate the non-streaming attention-based end-to-end
ASR models on the Flipkart voice search task in both standalone and re-scoring
modes. These models are based on Listen-Attend-Spell (LAS) encoder-decoder
architecture. We experiment with different encoder variations based on LSTM,
Transformer, and Conformer. We compare the latency requirements of these models
along with their performance. Overall we show that the Transformer model offers
acceptable WER with the lowest latency requirements. We report a relative WER
improvement of around 16% with the second pass LAS re-scoring with latency
overhead under 5ms. We also highlight the importance of CNN front-end with
Transformer architecture to achieve comparable word error rates (WER).
Moreover, we observe that in the second pass re-scoring mode all the encoders
provide similar benefits whereas the difference in performance is prominent in
standalone text generation mode.
- Abstract(参考訳): ストリーミング自動音声認識(ASR)モデルは、より人気があり、音声ベースのアプリケーションに適している。
しかし、非ストリーミングモデルは、オーディオコンテキスト全体を見ることによって、パフォーマンスが向上する。
音声検索のようなストリーミングアプリケーションにおける非ストリーミングモデルの利点を利用するため、second pass re-scoringモードでは一般的に使用される。
蒸気モデルを用いて生成された候補仮説は、非ストリーミングモデルを用いて再描画される。
本研究では,Flipkart音声検索タスクにおける非ストリーミングアテンションに基づく終端ASRモデルを,スタンドアローンモードと再描画モードの両方で評価する。
これらのモデルは Listen-Attend-Spell (LAS) encoder-decoder アーキテクチャに基づいている。
LSTM, Transformer, Conformer に基づく様々なエンコーダ変動実験を行った。
これらのモデルのレイテンシ要件とパフォーマンスを比較します。
全体として、Transformerモデルは最低レイテンシ要件で許容できるWERを提供する。
我々は,第2パスlasで約16%改善し,レイテンシオーバーヘッドが5ms以下となったことを報告する。
また,CNNフロントエンドとTransformerアーキテクチャが同等のワードエラー率(WER)を実現することの重要性を強調した。
さらに、第2パス再スコーリングモードでは、エンコーダが同様の利点を享受する一方、独立したテキスト生成モードではパフォーマンスの違いが顕著である。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。