論文の概要: Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2011.01991v1
- Date: Tue, 3 Nov 2020 20:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:29:30.693099
- Title: Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition
- Title(参考訳): ドメイン適応型エンドツーエンド音声認識のための内部言語モデル推定
- Authors: Zhong Meng, Sarangarajan Parthasarathy, Eric Sun, Yashesh Gaur,
Naoyuki Kanda, Liang Lu, Xie Chen, Rui Zhao, Jinyu Li, Yifan Gong
- Abstract要約: 内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
- 参考スコア(独自算出の注目度): 56.27081731553829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The external language models (LM) integration remains a challenging task for
end-to-end (E2E) automatic speech recognition (ASR) which has no clear division
between acoustic and language models. In this work, we propose an internal LM
estimation (ILME) method to facilitate a more effective integration of the
external LM with all pre-existing E2E models with no additional model training,
including the most popular recurrent neural network transducer (RNN-T) and
attention-based encoder-decoder (AED) models. Trained with audio-transcript
pairs, an E2E model implicitly learns an internal LM that characterizes the
training data in the source domain. With ILME, the internal LM scores of an E2E
model are estimated and subtracted from the log-linear interpolation between
the scores of the E2E model and the external LM. The internal LM scores are
approximated as the output of an E2E model when eliminating its acoustic
components. ILME can alleviate the domain mismatch between training and
testing, or improve the multi-domain E2E ASR. Experimented with 30K-hour
trained RNN-T and AED models, ILME achieves up to 15.5% and 6.8% relative word
error rate reductions from Shallow Fusion on out-of-domain LibriSpeech and
in-domain Microsoft production test sets, respectively.
- Abstract(参考訳): 外部言語モデル(LM)の統合は、音響モデルと言語モデルを明確に区別しないエンドツーエンド(E2E)自動音声認識(ASR)の課題である。
本研究では,既存のすべてのE2Eモデルと,最も一般的なリカレントニューラルネットワークトランスデューサ(RNN-T)やアテンションベースのエンコーダデコーダ(AED)モデルを含む,追加のモデルトレーニングを伴わない外部LMのより効率的な統合を容易にする内部LM推定(ILME)手法を提案する。
オーディオとテキストのペアで訓練されたE2Eモデルは、ソースドメイン内のトレーニングデータを特徴付ける内部LMを暗黙的に学習する。
ILMEでは、E2Eモデルの内部LMスコアを推定し、E2Eモデルと外部LMとの対数線形補間から減算する。
内部のLMスコアは、音響成分を除去する際にE2Eモデルの出力として近似される。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
30K時間トレーニングされたRNN-TとAEDモデルを用いて、ILMEはShallow Fusionからそれぞれ15.5%と6.8%の相対的な単語エラー率の削減を実現している。
関連論文リスト
- Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation [14.840612036671734]
自己回帰モデルに対するこのバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を推定するために、音声タイムステップを反復的にマスクする。
論文 参考訳(メタデータ) (2023-05-05T20:35:42Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition [82.60133751942854]
内部言語モデル推定(ILME)に基づくLM融合では,Shallow Fusionから単語誤り率(WER)が大幅に低減されている。
N-best仮説と後部仮説を生成するため, ILME (MWER-ILME) を用いた新しいMWERトレーニングを提案する。
MWER-ILMEは平均8.8%と5.8%の相対的なWER削減をMWERとMWER-SFの6つの異なるテストセットで達成している。
論文 参考訳(メタデータ) (2021-06-04T07:24:49Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。