論文の概要: Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI
- arxiv url: http://arxiv.org/abs/2112.02498v1
- Date: Sun, 5 Dec 2021 07:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:25:47.038183
- Title: Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI
- Title(参考訳): 格子フリーMMIを用いたエンドツーエンド音声認識のための一貫性学習と復号化
- Authors: Jinchuan Tian, Jianwei Yu, Chao Weng, Shi-Xiong Zhang, Dan Su, Dong
Yu, Yuexian Zou
- Abstract要約: 本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
- 参考スコア(独自算出の注目度): 67.13999010060057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, End-to-End (E2E) frameworks have achieved remarkable results on
various Automatic Speech Recognition (ASR) tasks. However, Lattice-Free Maximum
Mutual Information (LF-MMI), as one of the discriminative training criteria
that show superior performance in hybrid ASR systems, is rarely adopted in E2E
ASR frameworks. In this work, we propose a novel approach to integrate LF-MMI
criterion into E2E ASR frameworks in both training and decoding stages. The
proposed approach shows its effectiveness on two of the most widely used E2E
frameworks including Attention-Based Encoder-Decoders (AEDs) and Neural
Transducers (NTs). Experiments suggest that the introduction of the LF-MMI
criterion consistently leads to significant performance improvements on various
datasets and different E2E ASR frameworks. The best of our models achieves
competitive CER of 4.1\% / 4.4\% on Aishell-1 dev/test set; we also achieve
significant error reduction on Aishell-2 and Librispeech datasets over strong
baselines.
- Abstract(参考訳): 近年,エンド・ツー・エンド(E2E)フレームワークは,様々な自動音声認識(ASR)タスクにおいて顕著な成果を上げている。
しかし、ハイブリッドASRシステムにおいて優れた性能を示す識別訓練基準の一つであるLF-MMI(Lattice-Free Maximum Mutual Information)は、E2E ASRフレームワークで採用されることは稀である。
本研究では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
提案手法は,AED(Attention-Based Encoder-Decoders)やNT(Neural Transducers)など,最も広く使用されているE2Eフレームワークに対して有効であることを示す。
LF-MMI基準の導入は、さまざまなデータセットと異なるE2E ASRフレームワークにおいて、一貫して大幅なパフォーマンス向上をもたらすことが実験的に示唆されている。
Aishell-1開発/テストセット上での競合CERの4.1\%/4.4\%を実現し,Aishell-2とLibrispeechデータセットの強いベースライン上での大幅なエラー低減を実現した。
関連論文リスト
- Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Effect and Analysis of Large-scale Language Model Rescoring on
Competitive ASR Systems [30.873546090458678]
大規模言語モデル (LLM) は ASR N-best Rescoring に適用されている。
本研究では,LLM再構成を最も競争力のあるASRベースラインである Conformer-Transducer モデルに組み込む。
論文 参考訳(メタデータ) (2022-04-01T05:20:55Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。