論文の概要: Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.05354v1
- Date: Wed, 6 Oct 2021 23:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 12:23:54.829962
- Title: Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition
- Title(参考訳): テキスト専用データを用いたエンドツーエンド音声認識のための内部言語モデル適応
- Authors: Zhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li, Xie Chen, Yu Wu,
Yifan Gong
- Abstract要約: テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
- 参考スコア(独自算出の注目度): 80.32546870220979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-only adaptation of an end-to-end (E2E) model remains a challenging task
for automatic speech recognition (ASR). Language model (LM) fusion-based
approaches require an additional external LM during inference, significantly
increasing the computation cost. To overcome this, we propose an internal LM
adaptation (ILMA) of the E2E model using text-only data. Trained with
audio-transcript pairs, an E2E model implicitly learns an internal LM that
characterizes the token sequence probability which is approximated by the E2E
model output after zeroing out the encoder contribution. During ILMA, we
fine-tune the internal LM, i.e., the E2E components excluding the encoder, to
minimize a cross-entropy loss. To make ILMA effective, it is essential to train
the E2E model with an internal LM loss besides the standard E2E loss.
Furthermore, we propose to regularize ILMA by minimizing the Kullback-Leibler
divergence between the output distributions of the adapted and unadapted
internal LMs. ILMA is the most effective when we update only the last linear
layer of the joint network. ILMA enables a fast text-only adaptation of the E2E
model without increasing the run-time computational cost. Experimented with
30K-hour trained transformer transducer models, ILMA achieves up to 34.9%
relative word error rate reduction from the unadapted baseline.
- Abstract(参考訳): エンドツーエンド(E2E)モデルのテキストのみの適応は、自動音声認識(ASR)において難しい課題である。
言語モデル(lm) 融合ベースのアプローチでは、推論中に追加の外部lmが必要となり、計算コストが大幅に増加する。
そこで本研究では,テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
E2Eモデルでは、エンコーダコントリビューションをゼロにした後、E2Eモデル出力によって近似されるトークンシーケンス確率を特徴付ける内部LMを暗黙的に学習する。
ILMA中は、内部のLM、すなわちエンコーダを除くE2E成分を微調整し、クロスエントロピー損失を最小限に抑える。
ILMAを効果的にするためには、標準のE2E損失に加えて内部のLM損失でE2Eモデルをトレーニングすることが不可欠である。
さらに,適応型および未適応型内部LMの出力分布間のKullback-Leiblerのばらつきを最小化し,ILMAの正則化を提案する。
ILMAは, 関節ネットワークの最後の線形層のみを更新する場合が最も有効である。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
ILMAは30K時間トレーニングされたトランスデューサモデルを用いて実験し、適応していないベースラインから34.9%の単語誤り率を減少させる。
関連論文リスト
- Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Modular Hybrid Autoregressive Transducer [51.29870462504761]
トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識では依然として困難である。
ラベルとブランクデコーダを構造的に分離したモジュール型ハイブリッド自己回帰トランスデューサを提案する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減する。
論文 参考訳(メタデータ) (2022-10-31T03:56:37Z) - Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition [82.60133751942854]
内部言語モデル推定(ILME)に基づくLM融合では,Shallow Fusionから単語誤り率(WER)が大幅に低減されている。
N-best仮説と後部仮説を生成するため, ILME (MWER-ILME) を用いた新しいMWERトレーニングを提案する。
MWER-ILMEは平均8.8%と5.8%の相対的なWER削減をMWERとMWER-SFの6つの異なるテストセットで達成している。
論文 参考訳(メタデータ) (2021-06-04T07:24:49Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。