論文の概要: On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer
- arxiv url: http://arxiv.org/abs/2010.12673v3
- Date: Fri, 26 Mar 2021 17:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:26:37.389606
- Title: On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer
- Title(参考訳): ハイブリッド自己回帰変換器の最小単語誤り率学習について
- Authors: Liang Lu, Zhong Meng, Naoyuki Kanda, Jinyu Li, and Yifan Gong
- Abstract要約: ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
- 参考スコア(独自算出の注目度): 40.63693071222628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid Autoregressive Transducer (HAT) is a recently proposed end-to-end
acoustic model that extends the standard Recurrent Neural Network Transducer
(RNN-T) for the purpose of the external language model (LM) fusion. In HAT, the
blank probability and the label probability are estimated using two separate
probability distributions, which provides a more accurate solution for internal
LM score estimation, and thus works better when combining with an external LM.
Previous work mainly focuses on HAT model training with the negative
log-likelihood loss, while in this paper, we study the minimum word error rate
(MWER) training of HAT -- a criterion that is closer to the evaluation metric
for speech recognition, and has been successfully applied to other types of
end-to-end models such as sequence-to-sequence (S2S) and RNN-T models. From
experiments with around 30,000 hours of training data, we show that MWER
training can improve the accuracy of HAT models, while at the same time,
improving the robustness of the model against the decoding hyper-parameters
such as length normalization and decoding beam during inference.
- Abstract(参考訳): ハイブリット・オートレグレッシブ・トランスデューサ(HAT)は、外部言語モデル(LM)融合のために標準のリカレントニューラルネットワークトランスデューサ(RNN-T)を拡張した、最近提案されたエンドツーエンド音響モデルである。
HATでは、2つの異なる確率分布を用いて空白確率とラベル確率を推定し、内部のLMスコア推定をより正確にし、外部のLMと組み合わせてよりうまく動作する。
本稿では,HAT の最小単語誤り率 (MWER) のトレーニングについて検討するが,これは音声認識の評価基準に近い基準であり,シーケンス・ツー・シーケンス (S2S) や RNN-T モデルといった他のタイプのエンドツーエンドモデルにも適用可能である。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングはHATモデルの精度を向上すると同時に,推論中の長値正規化やデコードビームなどのデコードハイパーパラメータに対するモデルのロバスト性を向上することを示した。
関連論文リスト
- Embedded Nonlocal Operator Regression (ENOR): Quantifying model error in learning nonlocal operators [8.585650361148558]
本研究では,非局所的同化代理モデルとその構造モデル誤差を学習するための新しい枠組みを提案する。
このフレームワークは、長期シミュレーションにおける均質化材料応答予測のための離散性適応不確実性定量化を提供する。
論文 参考訳(メタデータ) (2024-10-27T04:17:27Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - ES-dRNN: A Hybrid Exponential Smoothing and Dilated Recurrent Neural
Network Model for Short-Term Load Forecasting [1.4502611532302039]
複雑な時系列(TS)のため、短期負荷予測(STLF)は困難である
本稿では,複数の季節性を扱うハイブリッド階層型ディープラーニングモデルを提案する。
指数スムージング(ES)とリカレントニューラルネットワーク(RNN)を組み合わせる。
論文 参考訳(メタデータ) (2021-12-05T19:38:42Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。