論文の概要: Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.02302v1
- Date: Fri, 4 Jun 2021 07:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 03:12:43.432433
- Title: Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition
- Title(参考訳): 言語モデル融合によるエンドツーエンド音声認識のための最小単語誤り率トレーニング
- Authors: Zhong Meng, Yu Wu, Naoyuki Kanda, Liang Lu, Xie Chen, Guoli Ye, Eric
Sun, Jinyu Li, Yifan Gong
- Abstract要約: 内部言語モデル推定(ILME)に基づくLM融合では,Shallow Fusionから単語誤り率(WER)が大幅に低減されている。
N-best仮説と後部仮説を生成するため, ILME (MWER-ILME) を用いた新しいMWERトレーニングを提案する。
MWER-ILMEは平均8.8%と5.8%の相対的なWER削減をMWERとMWER-SFの6つの異なるテストセットで達成している。
- 参考スコア(独自算出の注目度): 82.60133751942854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating external language models (LMs) into end-to-end (E2E) models
remains a challenging task for domain-adaptive speech recognition. Recently,
internal language model estimation (ILME)-based LM fusion has shown significant
word error rate (WER) reduction from Shallow Fusion by subtracting a weighted
internal LM score from an interpolation of E2E model and external LM scores
during beam search. However, on different test sets, the optimal LM
interpolation weights vary over a wide range and have to be tuned extensively
on well-matched validation sets. In this work, we perform LM fusion in the
minimum WER (MWER) training of an E2E model to obviate the need for LM weights
tuning during inference. Besides MWER training with Shallow Fusion (MWER-SF),
we propose a novel MWER training with ILME (MWER-ILME) where the ILME-based
fusion is conducted to generate N-best hypotheses and their posteriors.
Additional gradient is induced when internal LM is engaged in MWER-ILME loss
computation. During inference, LM weights pre-determined in MWER training
enable robust LM integrations on test sets from different domains. Experimented
with 30K-hour trained transformer transducers, MWER-ILME achieves on average
8.8% and 5.8% relative WER reductions from MWER and MWER-SF training,
respectively, on 6 different test sets
- Abstract(参考訳): 外部言語モデル(LM)をエンドツーエンド(E2E)モデルに統合することは、ドメイン適応音声認識において難しい課題である。
近年、内部言語モデル推定(ILME)に基づくLM融合は、ビームサーチ中にE2Eモデルと外部LMスコアの補間から重み付き内部LMスコアを減じることで、Shallow Fusionからの単語誤り率(WER)を著しく低減している。
しかし、異なるテストセットでは、最適なLM補間重みは幅広い範囲で変化し、十分に整合された検証セットで広範囲に調整する必要がある。
本研究では,E2Eモデルの最小WER(MWER)トレーニングにおけるLM融合を行い,推定時のLM重み付けチューニングの必要性を回避する。
本研究は,Shallow Fusion(MWER-SF)を用いたMWERトレーニングに加えて,ILMEを用いたMWERトレーニング(MWER-ILME)を提案する。
内部LMがMWER-ILME損失計算に係わる場合には、さらなる勾配が生じる。
推測中、MWERトレーニングで事前に決定されたLM重みは、異なるドメインのテストセット上で堅牢なLM積分を可能にする。
MWER-ILMEは、平均8.8%と5.8%のWERを、MWER-SFとMWER-SFのトレーニングからそれぞれ6つの異なるテストセットで減少させる。
関連論文リスト
- Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。