論文の概要: Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2102.01380v1
- Date: Tue, 2 Feb 2021 08:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 05:54:46.376175
- Title: Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition
- Title(参考訳): ドメイン適応型エンドツーエンド音声認識のための内部言語モデルトレーニング
- Authors: Zhong Meng, Naoyuki Kanda, Yashesh Gaur, Sarangarajan Parthasarathy,
Eric Sun, Liang Lu, Xie Chen, Jinyu Li, Yifan Gong
- Abstract要約: 内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
- 参考スコア(独自算出の注目度): 83.739317674302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of external language model (LM) integration with existing
end-to-end (E2E) automatic speech recognition (ASR) systems can be improved
significantly using the internal language model estimation (ILME) method. In
this method, the internal LM score is subtracted from the score obtained by
interpolating the E2E score with the external LM score, during inference. To
improve the ILME-based inference, we propose an internal LM training (ILMT)
method to minimize an additional internal LM loss by updating only the E2E
model components that affect the internal LM estimation. ILMT encourages the
E2E model to form a standalone LM inside its existing components, without
sacrificing ASR accuracy. After ILMT, the more modular E2E model with matched
training and inference criteria enables a more thorough elimination of the
source-domain internal LM, and therefore leads to a more effective integration
of the target-domain external LM. Experimented with 30K-hour trained recurrent
neural network transducer and attention-based encoder-decoder models, ILMT with
ILME-based inference achieves up to 31.5% and 11.4% relative word error rate
reductions from standard E2E training with Shallow Fusion on out-of-domain
LibriSpeech and in-domain Microsoft production test sets, respectively.
- Abstract(参考訳): 外部言語モデル(LM)と既存のエンドツーエンド(E2E)自動音声認識(ASR)システムの統合の有効性は、内部言語モデル推定(ILME)法を用いて大幅に改善することができる。
この方法では、推論中にE2Eスコアと外部LMスコアを補間して得られたスコアから内部LMスコアを減算する。
ILMEに基づく推論を改善するために、内部LM推定に影響を与えるE2Eモデルコンポーネントのみを更新することにより、内部LM損失を最小限に抑える内部LMトレーニング(ILMT)方法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
ILMTの後、トレーニングと推論の基準が一致したよりモジュール化されたE2Eモデルは、ソースドメイン内部のLMをより徹底的に除去し、ターゲットドメイン外部のLMをより効果的に統合することを可能にする。
30K時間の訓練された繰り返しニューラルネットワークトランスデューサと注意ベースのエンコーダデコーダモデルで実験されたILMTは、ILMEベースの推論により、標準E2Eトレーニングから最大31.5%および11.4%の相対的な単語誤り率を、ドメイン外LibriSpeechとMicrosoft生産テストセットでShallow Fusionでそれぞれ達成する。
関連論文リスト
- Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition [82.60133751942854]
内部言語モデル推定(ILME)に基づくLM融合では,Shallow Fusionから単語誤り率(WER)が大幅に低減されている。
N-best仮説と後部仮説を生成するため, ILME (MWER-ILME) を用いた新しいMWERトレーニングを提案する。
MWER-ILMEは平均8.8%と5.8%の相対的なWER削減をMWERとMWER-SFの6つの異なるテストセットで達成している。
論文 参考訳(メタデータ) (2021-06-04T07:24:49Z) - Librispeech Transducer Model with Internal Language Model Prior
Correction [58.579080710256704]
外部言語モデル (LM) を浅い融合で含み、推定された内部 LM を減算する変種を研究する。
内部LMの減算は、通常の浅い融合よりも14%以上の相対的な改善をもたらします。
我々のトランスデューサは、非ブランクラベルに対して異なる確率分布を持つ。
論文 参考訳(メタデータ) (2021-04-07T09:18:56Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。