論文の概要: Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition
- arxiv url: http://arxiv.org/abs/2008.13093v3
- Date: Wed, 2 Sep 2020 23:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:30:15.290754
- Title: Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition
- Title(参考訳): ストリーミングオンデバイス音声認識のためのトランスフォーマによる並列リコード
- Authors: Wei Li, James Qin, Chung-Cheng Chiu, Ruoming Pang, Yanzhang He
- Abstract要約: 2パスモデルは、デバイス上での音声認識において、より良い速度品質のトレードオフを提供する。
第2パスモデルは、従来のモデルを上回るエンドツーエンドモデルの品質改善において重要な役割を果たす。
本研究では,第2パスリスコラーのLSTM層をTransformer層に置き換えることを検討した。
- 参考スコア(独自算出の注目度): 36.86458309520383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances of end-to-end models have outperformed conventional models
through employing a two-pass model. The two-pass model provides better
speed-quality trade-offs for on-device speech recognition, where a 1st-pass
model generates hypotheses in a streaming fashion, and a 2nd-pass model
re-scores the hypotheses with full audio sequence context. The 2nd-pass model
plays a key role in the quality improvement of the end-to-end model to surpass
the conventional model. One main challenge of the two-pass model is the
computation latency introduced by the 2nd-pass model. Specifically, the
original design of the two-pass model uses LSTMs for the 2nd-pass model, which
are subject to long latency as they are constrained by the recurrent nature and
have to run inference sequentially. In this work we explore replacing the LSTM
layers in the 2nd-pass rescorer with Transformer layers, which can process the
entire hypothesis sequences in parallel and can therefore utilize the on-device
computation resources more efficiently. Compared with an LSTM-based baseline,
our proposed Transformer rescorer achieves more than 50% latency reduction with
quality improvement.
- Abstract(参考訳): エンド・ツー・エンドモデルの最近の進歩は、従来の2パスモデルよりも優れている。
そこでは,第1パスモデルがストリーミング形式で仮説を生成し,第2パスモデルが完全な音声シーケンスコンテキストで仮説を再スコアする。
第2パスモデルは、従来のモデルを上回るエンドツーエンドモデルの品質改善において重要な役割を果たす。
2パスモデルの主な課題は、第2パスモデルによって導入された計算遅延である。
具体的には、2-passモデルの最初の設計では2-passモデルにlstmsを使用しており、これはリカレントの性質に制約され、逐次的な推論を行なわなければならないため、レイテンシが長い。
本研究では,第2パスリスコラーのLSTM層をTransformer層に置き換えることで,仮説列全体を並列に処理し,デバイス上での計算資源をより効率的に活用することができることを示す。
LSTMベースのベースラインと比較して,提案するTransformer Rescorerは品質改善とともに50%以上の遅延低減を実現している。
関連論文リスト
- Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models [7.928003786376716]
畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。
我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。
我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:06:15Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - High-Accuracy and Low-Latency Speech Recognition with Two-Head
Contextual Layer Trajectory LSTM Model [46.34788932277904]
我々は,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改良を行った。
高い精度を達成するために、時間的モデリングとターゲット分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用いる。
シーケンスレベルの教師学生学習による学習戦略をさらに改善する。
論文 参考訳(メタデータ) (2020-03-17T00:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。