論文の概要: JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.08583v1
- Date: Thu, 16 Feb 2023 21:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:45:19.924060
- Title: JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition
- Title(参考訳): JEIT:統合エンドツーエンドモデルと内部言語モデルによる音声認識学習
- Authors: Zhong Meng, Weiran Wang, Rohit Prabhavalkar, Tara N. Sainath, Tongzhou
Chen, Ehsan Variani, Yu Zhang, Bo Li, Andrew Rosenberg, Bhuvana Ramabhadran
- Abstract要約: ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
- 参考スコア(独自算出の注目度): 63.38229762589485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose JEIT, a joint end-to-end (E2E) model and internal language model
(ILM) training method to inject large-scale unpaired text into ILM during E2E
training which improves rare-word speech recognition. With JEIT, the E2E model
computes an E2E loss on audio-transcript pairs while its ILM estimates a
cross-entropy loss on unpaired text. The E2E model is trained to minimize a
weighted sum of E2E and ILM losses. During JEIT, ILM absorbs knowledge from
unpaired text while the E2E training serves as regularization. Unlike ILM
adaptation methods, JEIT does not require a separate adaptation step and avoids
the need for Kullback-Leibler divergence regularization of ILM. We also show
that modular hybrid autoregressive transducer (MHAT) performs better than HAT
in the JEIT framework, and is much more robust than HAT during ILM adaptation.
To push the limit of unpaired text injection, we further propose a combined
JEIT and JOIST training (CJJT) that benefits from modality matching, encoder
text injection and ILM training. Both JEIT and CJJT can foster a more effective
LM fusion. With 100B unpaired sentences, JEIT/CJJT improves rare-word
recognition accuracy by up to 16.4% over a model trained without unpaired text.
- Abstract(参考訳): 本稿では,E2Eトレーニング中のILMに大規模未ペアテキストを注入し,レアワード音声認識を改善するJEITを提案する。
JEITでは、E2EモデルはオーディオとテキストのペアでE2E損失を計算し、ILMは未ペアテキストでクロスエントロピー損失を推定する。
E2Eモデルは、E2EとILM損失の重み付けを最小化するために訓練される。
JEITの間、ILMは未完成のテキストから知識を吸収し、E2Eトレーニングは正規化として機能する。
ILM適応法とは異なり、JEITは別段の適応ステップを必要としないため、ILMのKullback-Leibler分散正規化は不要である。
また、モジュール型ハイブリッド自己回帰トランスデューサ(MHAT)は、JEITフレームワークのHATよりも優れた性能を示し、ILM適応時のHATよりもずっと堅牢であることを示す。
未ペアテキストインジェクションの限界を押し上げるために,モダリティマッチング,エンコーダテキストインジェクション,ILMトレーニングの恩恵を受けるJEITとJOISTトレーニング(CJJT)の組み合わせを提案する。
JEITとCJTは共に、より効果的なLM融合を促進することができる。
100bのアンペア文で、jeit/cjjtは、アンペアテキストなしでトレーニングされたモデルよりも、レアワード認識精度を最大16.4%向上させる。
関連論文リスト
- Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end
Spoken Language Understanding [14.752834813510702]
我々はE2Eシステムをマルチモーダルモデルとして扱い、音声とテキストを2つのモーダルとして機能させる。
テキスト埋め込みに近い音響埋め込みを誘導するために,異なるマルチモーダルな損失を用いることを提案する。
CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-18T02:32:42Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - Improving Tail Performance of a Deliberation E2E ASR Model Using a Large
Text Corpus [35.45918249451485]
E2E(End-to-end)自動音声認識システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠如している。
推定時にE2Eモデルに事前学習したLMを組み込む方法として浅層核融合法が提案されている。
我々は、非常に大きなテキストコーパスを最先端のE2EASRモデルに組み込むために浅い融合を適用する。
論文 参考訳(メタデータ) (2020-08-24T14:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。