論文の概要: Enhancing CTC-based speech recognition with diverse modeling units
- arxiv url: http://arxiv.org/abs/2406.03274v2
- Date: Tue, 11 Jun 2024 15:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:33:54.079530
- Title: Enhancing CTC-based speech recognition with diverse modeling units
- Title(参考訳): 多様なモデリング単位を用いたCTCに基づく音声認識の強化
- Authors: Shiyi Han, Zhihong Lei, Mingbin Xu, Xingyu Na, Zhen Huang,
- Abstract要約: 近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。
本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
- 参考スコア(独自算出の注目度): 2.723573795552244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the evolution of end-to-end (E2E) automatic speech recognition (ASR) models has been remarkable, largely due to advances in deep learning architectures like transformer. On top of E2E systems, researchers have achieved substantial accuracy improvement by rescoring E2E model's N-best hypotheses with a phoneme-based model. This raises an interesting question about where the improvements come from other than the system combination effect. We examine the underlying mechanisms driving these gains and propose an efficient joint training approach, where E2E models are trained jointly with diverse modeling units. This methodology does not only align the strengths of both phoneme and grapheme-based models but also reveals that using these diverse modeling units in a synergistic way can significantly enhance model accuracy. Our findings offer new insights into the optimal integration of heterogeneous modeling units in the development of more robust and accurate ASR systems.
- Abstract(参考訳): 近年,変圧器などのディープラーニングアーキテクチャの進歩により,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなりの精度の向上を実現した。
このことは、システムの組み合わせ効果以外の改善がどこから来るのかという興味深い疑問を提起する。
提案手法は,E2Eモデルを多種多様なモデリングユニットと共同で訓練する,効率的な共同訓練手法である。
この手法は音素モデルとグラフモデルの両方の長所を整合させるだけでなく、これらの多種多様なモデリング単位を相乗的に使用することでモデルの精度を大幅に向上させる。
我々の研究は、より堅牢で正確なASRシステムの開発において、異種モデリングユニットの最適統合に関する新たな知見を提供する。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Large-scale learning of generalised representations for speaker
recognition [52.978310296712834]
多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
論文 参考訳(メタデータ) (2022-10-20T03:08:18Z) - Unified Modeling of Multi-Domain Multi-Device ASR Systems [13.61897259469694]
デバイス毎に異なるドメインモデルを統一モデルに統合する革新的なアプローチを提案する。
実験により,提案手法はドメイン毎に慎重に調整されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:07:22Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。