論文の概要: Integrate Lattice-Free MMI into End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.15614v1
- Date: Tue, 29 Mar 2022 14:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:39:40.142471
- Title: Integrate Lattice-Free MMI into End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識への格子フリーMMIの統合
- Authors: Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou and Dong Yu
- Abstract要約: 音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 87.01137882072322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In automatic speech recognition (ASR) research, discriminative criteria have
achieved superior performance in DNN-HMM systems. Given this success, the
adoption of discriminative criteria is promising to boost the performance of
end-to-end (E2E) ASR systems. With this motivation, previous works have
introduced the minimum Bayesian risk (MBR, one of the discriminative criteria)
into E2E ASR systems. However, the effectiveness and efficiency of the
MBR-based methods are compromised: the MBR criterion is only used in system
training, which creates a mismatch between training and decoding; the
on-the-fly decoding process in MBR-based methods results in the need for
pre-trained models and slow training speeds. To this end, novel algorithms are
proposed in this work to integrate another widely used discriminative
criterion, lattice-free maximum mutual information (LF-MMI), into E2E ASR
systems not only in the training stage but also in the decoding process. The
proposed LF-MMI training and decoding methods show their effectiveness on two
widely used E2E frameworks: Attention-Based Encoder-Decoders (AEDs) and Neural
Transducers (NTs). Compared with MBR-based methods, the proposed LF-MMI method:
maintains the consistency between training and decoding; eschews the on-the-fly
decoding process; trains from randomly initialized models with superior
training efficiency. Experiments suggest that the LF-MMI method outperforms its
MBR counterparts and consistently leads to statistically significant
performance improvements on various frameworks and datasets from 30 hours to
14.3k hours. The proposed method achieves state-of-the-art (SOTA) results on
Aishell-1 (CER 4.10%) and Aishell-2 (CER 5.02%) datasets. Code is released.
- Abstract(参考訳): 音声認識(ASR)研究において,識別基準はDNN-HMMシステムにおいて優れた性能を示した。
この成功を踏まえ、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
この動機により、以前の研究は最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入した。
しかし、mbrベースの手法の有効性と効率は損なわれ、mbrの基準はシステムトレーニングにのみ用いられ、トレーニングとデコードの間にミスマッチが生じ、mbrベースの手法のオン・ザ・フライのデコーディングプロセスは、事前訓練されたモデルが必要となり、トレーニング速度が遅くなる。
この目的のために、この研究で広く使われている差別的基準である、格子フリーの最大相互情報(LF-MMI)を、訓練段階だけでなく復号過程においてもE2E ASRシステムに統合する新しいアルゴリズムを提案する。
lf-mmiのトレーニングとデコード手法は、注意に基づくエンコーダデコーダ(aeds)とニューラルトランスデューサ(nts)という2つの広く使われているe2eフレームワークの有効性を示している。
mbr法と比較して、lf-mmi法はトレーニングと復号の一貫性を維持し、オンザフライの復号処理を回避し、トレーニング効率に優れたランダム初期化モデルから列車を分離する。
実験の結果、LF-MMI法はMBR法よりも優れており、様々なフレームワークやデータセットの性能が30時間から14.3k時間に統計的に大幅に向上したことが示唆された。
提案手法は, Aishell-1 (CER 4.10%) と Aishell-2 (CER 5.02%) のデータセットを用いて, 最先端(SOTA) 結果を実現する。
コードはリリースされます。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - A Novel Approach for Machine Learning-based Load Balancing in High-speed
Train System using Nested Cross Validation [0.6138671548064356]
近年,高速列車を含む様々な分野において,第5世代(5G)移動通信網が出現している。
クロスバリデーション方式を用いた機械学習(ML)による高速列車システムのシステム性能をモデル化する。
論文 参考訳(メタデータ) (2023-10-02T09:24:10Z) - MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods [13.56549575939123]
モデルパープレキシティとvs品質のミスマッチを軽減するために、ファインタニングとQEファインタニングを提案する。
自己学習においても,これらのファインタニング手法はベースモデルよりも有意に優れていることを示す。
これらの結果は、モノリンガルデータを活用する新たな方法が、人間の計算データと同等かそれ以上のモデル品質の向上を実現することを示唆している。
論文 参考訳(メタデータ) (2023-09-19T23:39:07Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Bit-Metric Decoding Rate in Multi-User MIMO Systems: Applications [13.848471206858617]
第1部では,非線形受信機を有するMU-MIMOシステムに対するリンク適応(LA)と物理層(PHY)の抽象化に焦点を当てる。
パートIIは、任意の受信機を持つMU-MIMOシステムにおいて、LAのための新しいアルゴリズム、利用可能な検出器のリストからの動的検出器選択、PHY抽象化を開発する。
論文 参考訳(メタデータ) (2022-03-11T22:51:26Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Machine Learning for MU-MIMO Receive Processing in OFDM Systems [14.118477167150143]
従来の線形最小平均二乗誤差(LMMSE)アーキテクチャ上に構築したML強化MU-MIMO受信機を提案する。
cnnはチャネル推定誤差の2次統計量の近似を計算するために用いられる。
CNNベースのデマッパーは、多数の周波数分割多重記号とサブキャリアを共同で処理する。
論文 参考訳(メタデータ) (2020-12-15T09:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。