論文の概要: Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models
- arxiv url: http://arxiv.org/abs/2107.09428v1
- Date: Tue, 20 Jul 2021 11:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:44:33.693418
- Title: Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models
- Title(参考訳): ブロックワイズ非回帰モデルに基づくエンドツーエンドASRのストリーミング
- Authors: Tianzi Wang, Yuya Fujita, Xuankai Chang, Shinji Watanabe
- Abstract要約: 非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
- 参考スコア(独自算出の注目度): 57.20432226304683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive (NAR) modeling has gained more and more attention in
speech processing. With recent state-of-the-art attention-based automatic
speech recognition (ASR) structure, NAR can realize promising real-time factor
(RTF) improvement with only small degradation of accuracy compared to the
autoregressive (AR) models. However, the recognition inference needs to wait
for the completion of a full speech utterance, which limits their applications
on low latency scenarios. To address this issue, we propose a novel end-to-end
streaming NAR speech recognition system by combining blockwise-attention and
connectionist temporal classification with mask-predict (Mask-CTC) NAR. During
inference, the input audio is separated into small blocks and then processed in
a blockwise streaming way. To address the insertion and deletion error at the
edge of the output of each block, we apply an overlapping decoding strategy
with a dynamic mapping trick that can produce more coherent sentences.
Experimental results show that the proposed method improves online ASR
recognition in low latency conditions compared to vanilla Mask-CTC. Moreover,
it can achieve a much faster inference speed compared to the AR attention-based
models. All of our codes will be publicly available at
https://github.com/espnet/espnet.
- Abstract(参考訳): 非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
近年の注目度に基づく自動音声認識(ASR)構造により,NARは自己回帰(AR)モデルと比較して精度の低下を小さく抑えて,有望なリアルタイム係数(RTF)改善を実現することができる。
しかし、認識推論は完全な音声発話が完了するのを待つ必要がある。
そこで我々は,ブロックワイズアテンションとコネクショナリズムの時間的分類とマスク予測(Mask-CTC)のNARを組み合わせることで,エンドツーエンドのNAR音声認識システムを提案する。
推論中、入力オーディオは小さなブロックに分割され、ブロック回りのストリーミング方法で処理される。
各ブロックの出力の端における挿入と削除の誤りに対処するため、より一貫性のある文を生成する動的マッピング手法を用いて重複復号戦略を適用する。
実験の結果,提案手法はバニラマスクCTCに比べて低レイテンシ条件下でのオンラインASR認識を改善することがわかった。
さらに、arの注意に基づくモデルよりもはるかに高速な推論速度を達成することができる。
すべてのコードはhttps://github.com/espnet/espnetで公開されます。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。