論文の概要: Deliberation Model Based Two-Pass End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2003.07962v1
- Date: Tue, 17 Mar 2020 22:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 21:50:02.749840
- Title: Deliberation Model Based Two-Pass End-to-End Speech Recognition
- Title(参考訳): 評定モデルに基づくエンドツーエンド音声認識
- Authors: Ke Hu, Tara N. Sainath, Ruoming Pang, Rohit Prabhavalkar
- Abstract要約: 非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
- 参考スコア(独自算出の注目度): 52.45841282906516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) models have made rapid progress in automatic speech
recognition (ASR) and perform competitively relative to conventional models. To
further improve the quality, a two-pass model has been proposed to rescore
streamed hypotheses using the non-streaming Listen, Attend and Spell (LAS)
model while maintaining a reasonable latency. The model attends to acoustics to
rescore hypotheses, as opposed to a class of neural correction models that use
only first-pass text hypotheses. In this work, we propose to attend to both
acoustics and first-pass hypotheses using a deliberation network. A
bidirectional encoder is used to extract context information from first-pass
hypotheses. The proposed deliberation model achieves 12% relative WER reduction
compared to LAS rescoring in Google Voice Search (VS) tasks, and 23% reduction
on a proper noun test set. Compared to a large conventional model, our best
model performs 21% relatively better for VS. In terms of computational
complexity, the deliberation decoder has a larger size than the LAS decoder,
and hence requires more computations in second-pass decoding.
- Abstract(参考訳): エンドツーエンド(E2E)モデルは、音声認識(ASR)において急速に進歩し、従来のモデルと競合的に機能している。
品質をさらに向上するため,非ストリーミング型リステン,アテント,スペル(LAS)モデルを用いて,適切なレイテンシを維持しながらストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
本研究では,検討ネットワークを用いて,音響学と第一パス仮説の両方に臨むことを提案する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
提案した検討モデルは,Google Voice Search (VS) タスクにおける LAS の相対的な WER 削減,および固有名詞テストセットでの 23% の削減を実現している。
計算複雑性の面では、検討デコーダはlasデコーダよりも大きなサイズを持つため、第2パスデコーダではより多くの計算が必要となる。
関連論文リスト
- Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition [36.86458309520383]
2パスモデルは、デバイス上での音声認識において、より良い速度品質のトレードオフを提供する。
第2パスモデルは、従来のモデルを上回るエンドツーエンドモデルの品質改善において重要な役割を果たす。
本研究では,第2パスリスコラーのLSTM層をTransformer層に置き換えることを検討した。
論文 参考訳(メタデータ) (2020-08-30T05:17:31Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。