論文の概要: Building Accurate Low Latency ASR for Streaming Voice Search
- arxiv url: http://arxiv.org/abs/2305.18596v1
- Date: Mon, 29 May 2023 20:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:27:23.338499
- Title: Building Accurate Low Latency ASR for Streaming Voice Search
- Title(参考訳): 音声検索のための高精度低レイテンシASRの構築
- Authors: Abhinav Goyal and Nikesh Garera
- Abstract要約: 本研究は,大規模音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に重点を置いている。
本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。
本稿では,共同ASRとEOS検出が可能なエンド・ツー・エンドモデルの簡単なトレーニングと推論戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) plays a crucial role in voice-based
applications. For applications requiring real-time feedback like Voice Search,
streaming capability becomes vital. While LSTM/RNN and CTC based ASR systems
are commonly employed for low-latency streaming applications, they often
exhibit lower accuracy compared to state-of-the-art models due to a lack of
future audio frames. In this work, we focus on developing accurate LSTM,
attention, and CTC based streaming ASR models for large-scale Hinglish (a blend
of Hindi and English) Voice Search. We investigate various modifications in
vanilla LSTM training which enhance the system's accuracy while preserving its
streaming capabilities. We also address the critical requirement of
end-of-speech (EOS) detection in streaming applications. We present a simple
training and inference strategy for end-to-end CTC models that enables joint
ASR and EOS detection. The evaluation of our model on Flipkart's Voice Search,
which handles substantial traffic of approximately 6 million queries per day,
demonstrates significant performance gains over the vanilla LSTM-CTC model. Our
model achieves a word error rate (WER) of 3.69% without EOS and 4.78% with EOS
while also reducing the search latency by approximately ~1300 ms (equivalent to
46.64% reduction) when compared to an independent voice activity detection
(VAD) model.
- Abstract(参考訳): 音声認識(ASR)は音声ベースのアプリケーションにおいて重要な役割を果たす。
音声検索のようなリアルタイムフィードバックを必要とするアプリケーションでは、ストリーミング機能が不可欠になる。
LSTM/RNN と CTC ベースの ASR システムは低レイテンシなストリーミングアプリケーションに一般的に使用されるが、将来のオーディオフレームの欠如により最先端のモデルに比べて精度は低い。
本研究では,大規模なHinglish(ヒンディー語と英語のブレンド)音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に焦点をあてる。
本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。
また,ストリーミングアプリケーションにおけるエンド・オブ・音声(EOS)検出の要件にも対処する。
本稿では,共同ASRとEOS検出が可能なエンドツーエンドCTCモデルの簡単なトレーニングと推論戦略を提案する。
flipkartの音声検索における1日あたり600万のクエリの実質的なトラフィックを処理するモデルの評価は、vanilla lstm-ctcモデルよりも大きなパフォーマンス向上を示している。
我々のモデルは、EOSのない3.69%の単語誤り率(WER)とEOSのない4.78%の単語誤り率(WER)を達成し、また、独立音声活動検出(VAD)モデルと比較して、検索遅延を約1300ms(46.64%)削減する。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。