論文の概要: On lattice-free boosted MMI training of HMM and CTC-based full-context
ASR models
- arxiv url: http://arxiv.org/abs/2107.04154v1
- Date: Fri, 9 Jul 2021 00:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:38:22.935230
- Title: On lattice-free boosted MMI training of HMM and CTC-based full-context
ASR models
- Title(参考訳): HMMとCTCに基づくフルコンテキストASRモデルの格子フリー強化MMIトレーニングについて
- Authors: Xiaohui Zhang, Vimal Manohar, David Zhang, Frank Zhang, Yangyang Shi,
Nayan Singhal, Julian Chan, Fuchun Peng, Yatharth Saraf, Mike Seltzer
- Abstract要約: LF-MMIは,限定コンテキストモデルとフルコンテキストモデルの両方に適用可能な,強力なトレーニング基準であることを示す。
本稿では,チェノン(ch)/ワードピース(wp)-CTC-bMMI,ワードピース(wp)-HMM-bMMIの3つの新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 30.34240195899126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid automatic speech recognition (ASR) models are typically sequentially
trained with CTC or LF-MMI criteria. However, they have vastly different
legacies and are usually implemented in different frameworks. In this paper, by
decoupling the concepts of modeling units and label topologies and building
proper numerator/denominator graphs accordingly, we establish a generalized
framework for hybrid acoustic modeling (AM). In this framework, we show that
LF-MMI is a powerful training criterion applicable to both limited-context and
full-context models, for wordpiece/mono-char/bi-char/chenone units, with both
HMM/CTC topologies. From this framework, we propose three novel training
schemes: chenone(ch)/wordpiece(wp)-CTC-bMMI, and wordpiece(wp)-HMM-bMMI with
different advantages in training performance, decoding efficiency and decoding
time-stamp accuracy. The advantages of different training schemes are evaluated
comprehensively on Librispeech, and wp-CTC-bMMI and ch-CTC-bMMI are evaluated
on two real world ASR tasks to show their effectiveness. Besides, we also show
bi-char(bc) HMM-MMI models can serve as better alignment models than
traditional non-neural GMM-HMMs.
- Abstract(参考訳): ハイブリッド自動音声認識(ASR)モデルは通常、CTCまたはLF-MMI基準で順次訓練される。
しかし、それらは非常に異なる正統性を持ち、通常は異なるフレームワークで実装される。
本稿では,モデリング単位とラベルトポロジの概念を分離し,適切な数値/デノミネータグラフを構築することにより,ハイブリッド音響モデリング(AM)のための一般化された枠組みを確立する。
本フレームワークでは,HMM/CTCトポロジを持つワードピース/モノチャー/ビチャー/チェノン単位に対して,LF-MMIは限定コンテキストモデルとフルコンテキストモデルの両方に適用可能な,強力なトレーニング基準であることを示す。
本フレームワークでは,チェノン(ch)/ワードピース(wp)-CTC-bMMI,ワードピース(wp)-HMM-bMMIの3つの新しいトレーニング手法を提案する。
異なるトレーニングスキームの利点をLibrispeech上で総合的に評価し,wp-CTC-bMMIとch-CTC-bMMIを実世界の2つのタスクで評価し,その効果を示した。
さらに、バイチャーHMM-MMIモデルが従来の非ニューラルGMM-HMMよりも優れたアライメントモデルとして機能することを示す。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。
本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。
提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-19T05:01:12Z) - CORN: Co-Trained Full- And No-Reference Speech Quality Assessment [16.23732004215614]
No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。
我々は、これらの2つのアプローチを調和させるCORNと呼ばれる新しいフレームワークを提案する。
CORNは、独立して訓練されたベースラインNRモデルより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-13T20:17:44Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Fuzzy Cognitive Maps and Hidden Markov Models: Comparative Analysis of
Efficiency within the Confines of the Time Series Classification Task [0.0]
時系列分類における隠れマルコフモデル(HMM)の適用について検討する。
HMM NN (HMM, 1シリーズ), HMM 1C (HMM, 1クラス), FCM NN, FCM 1C の4つのモデルを連続実験で検討した。
論文 参考訳(メタデータ) (2022-04-28T12:41:05Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training [49.47516627019855]
w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-07T06:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。