論文の概要: Improving Rare Word Recognition with LM-aware MWER Training
- arxiv url: http://arxiv.org/abs/2204.07553v1
- Date: Fri, 15 Apr 2022 17:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 12:17:36.291910
- Title: Improving Rare Word Recognition with LM-aware MWER Training
- Title(参考訳): LM対応MWERトレーニングによる希少単語認識の改善
- Authors: Weiran Wang, Tongzhou Chen, Tara N. Sainath, Ehsan Variani, Rohit
Prabhavalkar, Ronny Huang, Bhuvana Ramabhadran, Neeraj Gaur, Sepand
Mavandadi, Cal Peyser, Trevor Strohman, Yanzhang He, David Rybach
- Abstract要約: 本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
- 参考スコア(独自算出の注目度): 50.241159623691885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) significantly improve the recognition accuracy of
end-to-end (E2E) models on words rarely seen during training, when used in
either the shallow fusion or the rescoring setups. In this work, we introduce
LMs in the learning of hybrid autoregressive transducer (HAT) models in the
discriminative training framework, to mitigate the training versus inference
gap regarding the use of LMs. For the shallow fusion setup, we use LMs during
both hypotheses generation and loss computation, and the LM-aware MWER-trained
model achieves 10\% relative improvement over the model trained with standard
MWER on voice search test sets containing rare words. For the rescoring setup,
we learn a small neural module to generate per-token fusion weights in a
data-dependent manner. This model achieves the same rescoring WER as regular
MWER-trained model, but without the need for sweeping fusion weights.
- Abstract(参考訳): 言語モデル(LM)は、浅い融合または再装飾装置で使用される場合、訓練中にほとんど見られない単語のエンドツーエンド(E2E)モデルの認識精度を著しく向上させる。
本研究では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの識別訓練フレームワークにおける学習におけるLMを導入し,LMの使用に関するトレーニングと推論のギャップを軽減する。
浅い融合系では, 仮説生成と損失計算の両方にlmsを用い, lm対応mwer学習モデルでは, 希少語を含む音声検索テストセットにおいて標準mwerで訓練されたモデルと比較して10-%の相対的改善を達成している。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
このモデルは、通常のMWER訓練モデルと同様の再現 WER を達成するが、核融合重量の掃引は不要である。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Minimum Word Error Rate Training with Language Model Fusion for
End-to-End Speech Recognition [82.60133751942854]
内部言語モデル推定(ILME)に基づくLM融合では,Shallow Fusionから単語誤り率(WER)が大幅に低減されている。
N-best仮説と後部仮説を生成するため, ILME (MWER-ILME) を用いた新しいMWERトレーニングを提案する。
MWER-ILMEは平均8.8%と5.8%の相対的なWER削減をMWERとMWER-SFの6つの異なるテストセットで達成している。
論文 参考訳(メタデータ) (2021-06-04T07:24:49Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。