論文の概要: Improving Tail Performance of a Deliberation E2E ASR Model Using a Large
Text Corpus
- arxiv url: http://arxiv.org/abs/2008.10491v2
- Date: Tue, 25 Aug 2020 12:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:33:47.467553
- Title: Improving Tail Performance of a Deliberation E2E ASR Model Using a Large
Text Corpus
- Title(参考訳): 大規模テキストコーパスを用いた検討E2E ASRモデルの性能向上
- Authors: Cal Peyser, Sepand Mavandadi, Tara N. Sainath, James Apfel, Ruoming
Pang, Shankar Kumar
- Abstract要約: E2E(End-to-end)自動音声認識システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠如している。
推定時にE2Eモデルに事前学習したLMを組み込む方法として浅層核融合法が提案されている。
我々は、非常に大きなテキストコーパスを最先端のE2EASRモデルに組み込むために浅い融合を適用する。
- 参考スコア(独自算出の注目度): 35.45918249451485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) systems lack the distinct
language model (LM) component that characterizes traditional speech systems.
While this simplifies the model architecture, it complicates the task of
incorporating text-only data into training, which is important to the
recognition of tail words that do not occur often in audio-text pairs. While
shallow fusion has been proposed as a method for incorporating a pre-trained LM
into an E2E model at inference time, it has not yet been explored for very
large text corpora, and it has been shown to be very sensitive to
hyperparameter settings in the beam search. In this work, we apply shallow
fusion to incorporate a very large text corpus into a state-of-the-art E2EASR
model. We explore the impact of model size and show that intelligent pruning of
the training set can be more effective than increasing the parameter count.
Additionally, we show that incorporating the LM in minimum word error rate
(MWER) fine tuning makes shallow fusion far less dependent on optimal
hyperparameter settings, reducing the difficulty of that tuning problem.
- Abstract(参考訳): エンドツーエンド(E2E)自動音声認識(ASR)システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠けている。
これはモデルアーキテクチャを単純化する一方で、トレーニングにテキストのみのデータを統合する作業が複雑になる。
推定時に事前学習したLMをE2Eモデルに組み込む方法として浅層融合が提案されているが、まだ非常に大きなテキストコーパスでは研究されておらず、ビームサーチにおけるハイパーパラメータ設定に非常に敏感であることが示されている。
本研究では,e2easrモデルに非常に大きなテキストコーパスを組み込むために,浅い融合を適用した。
モデルサイズの影響を調査し,パラメータ数を増加させるよりも,トレーニングセットのインテリジェントなプルーニングが効果的であることを示す。
さらに、最小単語誤り率(MWER)の微調整にLMを組み込むことで、浅い融合が最適なハイパーパラメータ設定に依存しにくくなり、そのチューニングの難しさを低減できることを示す。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques [28.59181595057581]
sed-mddとの違いである新しいテキスト依存モデルを提案する。
本論文では,モデルが誤発音音素を捕捉する能力を効果的に向上する3つの単純なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T03:11:41Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。