論文の概要: On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers
- arxiv url: http://arxiv.org/abs/2309.14130v2
- Date: Sat, 13 Apr 2024 08:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:47:12.256840
- Title: On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers
- Title(参考訳): ニューラルトランスデューサにおける内部言語モデルと系列識別訓練の関係について
- Authors: Zijian Yang, Wei Zhou, Ralf Schlüter, Hermann Ney,
- Abstract要約: 内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
- 参考スコア(独自算出の注目度): 52.88268942796418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal language model (ILM) subtraction has been widely applied to improve the performance of the RNN-Transducer with external language model (LM) fusion for speech recognition. In this work, we show that sequence discriminative training has a strong correlation with ILM subtraction from both theoretical and empirical points of view. Theoretically, we derive that the global optimum of maximum mutual information (MMI) training shares a similar formula as ILM subtraction. Empirically, we show that ILM subtraction and sequence discriminative training achieve similar effects across a wide range of experiments on Librispeech, including both MMI and minimum Bayes risk (MBR) criteria, as well as neural transducers and LMs of both full and limited context. The benefit of ILM subtraction also becomes much smaller after sequence discriminative training. We also provide an in-depth study to show that sequence discriminative training has a minimal effect on the commonly used zero-encoder ILM estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and blank suppression.
- Abstract(参考訳): 内部言語モデル(ILM)サブトラクションは、音声認識のための外部言語モデル(LM)融合を用いたRNN-Transducerの性能向上に広く応用されている。
本研究は,シーケンス識別訓練がILMサブトラクションと理論的,経験的両面から強く相関していることを示す。
理論的には、最大相互情報(MMI)トレーニングのグローバルな最適化は、ILM減算と類似した公式を共有する。
ILMサブトラクションとシーケンス識別訓練は,MMIおよび最小ベイズリスク(MBR)基準,およびフルコンテキストおよび制限コンテキストのニューラルトランスデューサとLMの両方を含む,幅広い実験において同様の効果を発揮することを実証的に示す。
ILMサブトラクションの利点は、シーケンス判別訓練後にさらに小さくなる。
In-deepth study that sequence discriminative training have a minimal effect on the common use zero-encoder ILM Estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and emptypression。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。
計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-19T01:43:52Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Investigating the Effect of Language Models in Sequence Discriminative
Training for Neural Transducers [36.60689278751483]
文脈長の異なる言語モデル (LM) と, 逐次識別訓練に用いるラベル単位 (音素対単語) の効果について検討した。
Librispeech 実験の結果,単語レベルLM は音素レベルLM よりも優れていた。
この結果から, 系列識別訓練における仮説空間の質の重要性が示唆された。
論文 参考訳(メタデータ) (2023-10-11T09:53:17Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。