論文の概要: Dissecting User-Perceived Latency of On-Device E2E Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.02207v1
- Date: Tue, 6 Apr 2021 00:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:57:06.883072
- Title: Dissecting User-Perceived Latency of On-Device E2E Speech Recognition
- Title(参考訳): デバイス上e2e音声認識におけるユーザ知覚遅延の解消
- Authors: Yuan Shangguan, Rohit Prabhavalkar, Hang Su, Jay Mahadeokar, Yangyang
Shi, Jiatong Zhou, Chunyang Wu, Duc Le, Ozlem Kalinli, Christian Fuegen,
Michael L. Seltzer
- Abstract要約: 我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 34.645194215436966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As speech-enabled devices such as smartphones and smart speakers become
increasingly ubiquitous, there is growing interest in building automatic speech
recognition (ASR) systems that can run directly on-device; end-to-end (E2E)
speech recognition models such as recurrent neural network transducers and
their variants have recently emerged as prime candidates for this task. Apart
from being accurate and compact, such systems need to decode speech with low
user-perceived latency (UPL), producing words as soon as they are spoken. This
work examines the impact of various techniques -- model architectures, training
criteria, decoding hyperparameters, and endpointer parameters -- on UPL. Our
analyses suggest that measures of model size (parameters, input chunk sizes),
or measures of computation (e.g., FLOPS, RTF) that reflect the model's ability
to process input frames are not always strongly correlated with observed UPL.
Thus, conventional algorithmic latency measurements might be inadequate in
accurately capturing latency observed when models are deployed on embedded
devices. Instead, we find that factors affecting token emission latency, and
endpointing behavior significantly impact on UPL. We achieve the best trade-off
between latency and word error rate when performing ASR jointly with
endpointing, and using the recently proposed alignment regularization.
- Abstract(参考訳): スマートフォンやスマートスピーカーなどの音声対応デバイスがますます普及するにつれて、デバイス上で直接動作する自動音声認識(ASR)システムの構築への関心が高まっている。
正確でコンパクトな他、このようなシステムでは、低ユーザ知覚レイテンシ(upl)で音声をデコードし、話すとすぐに単語を生成する必要がある。
本研究は,モデルアーキテクチャやトレーニング基準,ハイパーパラメータの復号化,エンドポイントパラメータなど,さまざまなテクニックがUPLに与える影響について検討する。
解析の結果,モデルのサイズ(パラメータ,入力チャンクサイズ)や,モデルが入力フレームを処理可能であることを反映した計算量(FLOPS,RTF)は,観測されたUPLと必ずしも強く相関していないことが示唆された。
したがって、従来のアルゴリズムによる遅延測定は、組込みデバイスにモデルがデプロイされたときに観測された遅延を正確に捉えるのに不十分である。
その代わり、トークン放出遅延やエンドポイント動作に影響する要因がuplに大きな影響を与えていることが分かりました。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - A review of on-device fully neural end-to-end automatic speech
recognition algorithms [20.469868150587075]
デバイス上での各種自動音声認識アルゴリズムとその最適化手法について検討する。
完全ニューラルネットワークのエンドツーエンド音声認識アルゴリズムが提案されている。
従来のアルゴリズムと比較して,それらの構造,性能,利点を広く論じる。
論文 参考訳(メタデータ) (2020-12-14T22:18:08Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Scaling Up Online Speech Recognition Using ConvNets [33.75588539732141]
我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
論文 参考訳(メタデータ) (2020-01-27T12:55:02Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。