論文の概要: Streaming parallel transducer beam search with fast-slow cascaded
encoders
- arxiv url: http://arxiv.org/abs/2203.15773v1
- Date: Tue, 29 Mar 2022 17:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:39:10.002129
- Title: Streaming parallel transducer beam search with fast-slow cascaded
encoders
- Title(参考訳): 高速カスケードエンコーダを用いたストリーミング並列トランスデューサビーム探索
- Authors: Jay Mahadeokar, Yangyang Shi, Ke Li, Duc Le, Jiedan Zhu, Vikas
Chandra, Ozlem Kalinli, Michael L Seltzer
- Abstract要約: RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.416682253435837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming ASR with strict latency constraints is required in many speech
recognition applications. In order to achieve the required latency, streaming
ASR models sacrifice accuracy compared to non-streaming ASR models due to lack
of future input context. Previous research has shown that streaming and
non-streaming ASR for RNN Transducers can be unified by cascading causal and
non-causal encoders. This work improves upon this cascaded encoders framework
by leveraging two streaming non-causal encoders with variable input context
sizes that can produce outputs at different audio intervals (e.g. fast and
slow). We propose a novel parallel time-synchronous beam search algorithm for
transducers that decodes from fast-slow encoders, where the slow encoder
corrects the mistakes generated from the fast encoder. The proposed algorithm,
achieves up to 20% WER reduction with a slight increase in token emission
delays on the public Librispeech dataset and in-house datasets. We also explore
techniques to reduce the computation by distributing processing between the
fast and slow encoders. Lastly, we explore sharing the parameters in the fast
encoder to reduce the memory footprint. This enables low latency processing on
edge devices with low computation cost and a low memory footprint.
- Abstract(参考訳): 多くの音声認識アプリケーションでは、厳格なレイテンシ制限付きストリーミングasrが必要である。
必要なレイテンシを実現するために、ストリーミングasrモデルは、将来の入力コンテキストの欠如による非ストリーミングasrモデルに比べて精度を犠牲にしている。
従来の研究では、RNNトランスデューサのストリーミングおよび非ストリーミングASRは因果エンコーダと非因果エンコーダをカスケードすることで統一可能であることが示されている。
この作業は、異なるオーディオ間隔(例えば、高速と遅い)で出力を生成できる可変入力コンテキストサイズの2つのストリーミング非コーダを活用することで、このカスケードエンコーダフレームワークを改善している。
本稿では,高速エンコーダから復号するトランスデューサに対して,高速エンコーダから発生する誤りを高速エンコーダから補正する並列時間同期ビーム探索アルゴリズムを提案する。
提案アルゴリズムは,公開Librispeechデータセットと社内データセットのトークン放出遅延をわずかに増加させ,最大20%のWER削減を実現する。
また,高速エンコーダと低速エンコーダの間で処理を分散することにより,計算量を削減する手法も検討する。
最後に、メモリフットプリントを削減するために、高速エンコーダのパラメータを共有することを検討する。
これにより、計算コストが低くメモリフットプリントの少ないエッジデバイスでの低レイテンシ処理が可能になる。
関連論文リスト
- Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion
Models [95.47438940934413]
UNetエンコーダの最初の包括的な研究を行う。
エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間経過によって大きく変化する。
伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs [1.8047694351309207]
FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T09:05:17Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。