論文の概要: Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition
- arxiv url: http://arxiv.org/abs/2110.04891v1
- Date: Sun, 10 Oct 2021 20:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 12:53:05.582369
- Title: Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition
- Title(参考訳): 両方の世界を最大限に活用する:音声認識のための2パスハイブリッドとE2Eカスケーディングフレームワーク
- Authors: Guoli Ye, Vadim Mazalov, Jinyu Li and Yifan Gong
- Abstract要約: ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
- 参考スコア(独自算出の注目度): 71.30167252138048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid and end-to-end (E2E) systems have their individual advantages, with
different error patterns in the speech recognition results. By jointly modeling
audio and text, the E2E model performs better in matched scenarios and scales
well with a large amount of paired audio-text training data. The modularized
hybrid model is easier for customization, and better to make use of a massive
amount of unpaired text data. This paper proposes a two-pass hybrid and E2E
cascading (HEC) framework to combine the hybrid and E2E model in order to take
advantage of both sides, with hybrid in the first pass and E2E in the second
pass. We show that the proposed system achieves 8-10% relative word error rate
reduction with respect to each individual system. More importantly, compared
with the pure E2E system, we show the proposed system has the potential to keep
the advantages of hybrid system, e.g., customization and segmentation
capabilities. We also show the second pass E2E model in HEC is robust with
respect to the change in the first pass hybrid model.
- Abstract(参考訳): ハイブリッド・エンド・ツー・エンド(E2E)システムには,音声認識結果に異なる誤りパターンがある。
オーディオとテキストを共同でモデル化することで、e2eモデルは、マッチしたシナリオでパフォーマンスが向上し、大量のペアオーディオテキストトレーニングデータとうまく連携する。
モジュール化されたハイブリッドモデルはカスタマイズが容易であり、大量の非ペアテキストデータを使うのがよい。
本稿では,ハイブリッドとE2Eモデルを組み合わせた2パスハイブリッドとE2Eカスケーディング(HEC)フレームワークを提案する。
提案方式は,各システムに対して8~10%の単語誤り率削減を実現することを示す。
さらに重要なことは、純粋なE2Eシステムと比較して、提案システムは、例えば、カスタマイズやセグメンテーション機能といったハイブリッドシステムの利点を維持することができることを示している。
また,HECにおける第2パスE2Eモデルは,第1パスハイブリッドモデルの変化に対して頑健であることを示す。
関連論文リスト
- Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end
Spoken Language Understanding [14.752834813510702]
我々はE2Eシステムをマルチモーダルモデルとして扱い、音声とテキストを2つのモーダルとして機能させる。
テキスト埋め込みに近い音響埋め込みを誘導するために,異なるマルチモーダルな損失を用いることを提案する。
CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-18T02:32:42Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。