論文の概要: Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer
- arxiv url: http://arxiv.org/abs/2203.15613v1
- Date: Tue, 29 Mar 2022 14:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 19:36:14.664083
- Title: Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer
- Title(参考訳): Emformerを用いたCTCに基づく音声認識における動的レイテンシ
- Authors: Jingyu Sun, Guiping Zhong, Dinghao Zhou, Baoxiang Li
- Abstract要約: 効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An inferior performance of the streaming automatic speech recognition models
versus non-streaming model is frequently seen due to the absence of future
context. In order to improve the performance of the streaming model and reduce
the computational complexity, a frame-level model using efficient augment
memory transformer block and dynamic latency training method is employed for
streaming automatic speech recognition in this paper. The long-range history
context is stored into the augment memory bank as a complement to the limited
history context used in the encoder. Key and value are cached by a cache
mechanism and reused for next chunk to reduce computation. Afterwards, a
dynamic latency training method is proposed to obtain better performance and
support low and high latency inference simultaneously. Our experiments are
conducted on benchmark 960h LibriSpeech data set. With an average latency of
640ms, our model achieves a relative WER reduction of 6.0% on test-clean and
3.0% on test-other versus the truncate chunk-wise Transformer.
- Abstract(参考訳): ストリーミング自動音声認識モデルと非ストリーミングモデルでは,将来的な文脈がないため,性能が劣ることが多い。
ストリーミングモデルの性能向上と計算複雑性の低減を図るため,本論文では,効率的な拡張メモリ変換器ブロックと動的遅延学習手法を用いたフレームレベルモデルを用いて,自動音声認識のストリーミングを行う。
長距離履歴コンテキストはエンコーダで使用される制限された履歴コンテキストの補完として拡張メモリバンクに格納される。
キーと値はキャッシュ機構によってキャッシュされ、次のチャンクのために再利用される。
その後,性能向上と低レイテンシと高レイテンシの同時推論をサポートするために,動的遅延学習法を提案する。
ベンチマーク960h LibriSpeechデータセットを用いて実験を行った。
平均遅延は640msであり,テストクリーンでは6.0%,他では3.0%,チャンクワイドトランスでは3.0%となる。
関連論文リスト
- End-to-end Streaming model for Low-Latency Speech Anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文 参考訳(メタデータ) (2024-06-13T16:15:53Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Emformer: Efficient Memory Transformer Based Acoustic Model For Low
Latency Streaming Speech Recognition [23.496223778642758]
長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。
キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。
平均遅延960ミリ秒では、EmformerはテストクリーンでWER$2.50%、他で$5.62%となる。
論文 参考訳(メタデータ) (2020-10-21T04:38:09Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。