論文の概要: FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization
- arxiv url: http://arxiv.org/abs/2010.11148v2
- Date: Wed, 3 Feb 2021 20:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 22:41:12.747923
- Title: FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization
- Title(参考訳): FastEmit: シーケンスレベルのエミッション規則付き低レイテンシストリーミングASR
- Authors: Jiahui Yu, Chung-Cheng Chiu, Bo Li, Shuo-yiin Chang, Tara N. Sainath,
Yanzhang He, Arun Narayanan, Wei Han, Anmol Gulati, Yonghui Wu, Ruoming Pang
- Abstract要約: ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
- 参考スコア(独自算出の注目度): 78.46088089185156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming automatic speech recognition (ASR) aims to emit each hypothesized
word as quickly and accurately as possible. However, emitting fast without
degrading quality, as measured by word error rate (WER), is highly challenging.
Existing approaches including Early and Late Penalties and Constrained
Alignments penalize emission delay by manipulating per-token or per-frame
probability prediction in sequence transducer models. While being successful in
reducing delay, these approaches suffer from significant accuracy regression
and also require additional word alignment information from an existing model.
In this work, we propose a sequence-level emission regularization method, named
FastEmit, that applies latency regularization directly on per-sequence
probability in training transducer models, and does not require any alignment.
We demonstrate that FastEmit is more suitable to the sequence-level
optimization of transducer models for streaming ASR by applying it on various
end-to-end streaming ASR networks including RNN-Transducer,
Transformer-Transducer, ConvNet-Transducer and Conformer-Transducer. We achieve
150-300 ms latency reduction with significantly better accuracy over previous
techniques on a Voice Search test set. FastEmit also improves streaming ASR
accuracy from 4.4%/8.9% to 3.1%/7.5% WER, meanwhile reduces 90th percentile
latency from 210 ms to only 30 ms on LibriSpeech.
- Abstract(参考訳): ストリーミング自動音声認識(asr)は、各仮説語を可能な限り迅速かつ正確に発散することを目的としている。
しかし,ワードエラー率(wer)で測定した品質低下を伴わない高速発光は極めて困難である。
初期および後期のペナルティや制約付きアライメントを含む既存のアプローチは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を操作することによって、発光遅延を罰する。
遅延の低減に成功しているが、これらの手法は精度の低下に悩まされ、既存のモデルから追加の単語アライメント情報を必要とする。
そこで本研究では,トランスデューサモデルの学習において,遅延正規化を列当たり確率に直接適用し,アライメントを必要としないファシミットというシーケンスレベルエミッション正規化手法を提案する。
我々は、RNN-Transducer、Transformer-Transducer、ConvNet-Transducer、Conformer-Transducerなどの様々なエンドツーエンドストリーミングASRネットワークに適用することにより、ストリーミングASRのためのトランスデューサモデルのシーケンスレベル最適化により適していることを示す。
従来のVoice Searchテストセットに比べて,150~300msのレイテンシ低減を実現し,精度を向上した。
fastemitはまたストリーミングasrの精度を4.4%/8.9%から3.1%/7.5%に改善し、90パーセントのレイテンシを210msから30msに短縮した。
関連論文リスト
- Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。
実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T09:19:59Z) - TrimTail: Low-Latency Streaming ASR with Simple but Effective
Spectrogram-Level Length Penalty [14.71509986713044]
本稿では,ストリーミングASRモデルのレイテンシを改善するために,TrimTailを提案する。
Aishell-1とLibrispeechで100$sim$200msの遅延低減を実現した。
論文 参考訳(メタデータ) (2022-11-01T15:12:34Z) - Delay-penalized transducer for low-latency streaming ASR [26.39851372961386]
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
論文 参考訳(メタデータ) (2022-10-31T07:03:50Z) - Reducing Streaming ASR Model Delay with Self Alignment [20.61461084287351]
制約付きアライメントは、外部の低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。
FastEmitは、参照アライメントなしでブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームです。
本稿では,自己アライメントという,新たな遅延制約手法を提案する。
論文 参考訳(メタデータ) (2021-05-06T18:00:11Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。