論文の概要: On the Relation between Internal Language Model and Sequence
Discriminative Training for Neural Transducers
- arxiv url: http://arxiv.org/abs/2309.14130v1
- Date: Mon, 25 Sep 2023 13:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:29:42.654875
- Title: On the Relation between Internal Language Model and Sequence
Discriminative Training for Neural Transducers
- Title(参考訳): ニューラルトランスデューサにおける内部言語モデルと系列識別訓練の関係について
- Authors: Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
- 参考スコア(独自算出の注目度): 36.60689278751483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal language model (ILM) subtraction has been widely applied to improve
the performance of the RNN-Transducer with external language model (LM) fusion
for speech recognition. In this work, we show that sequence discriminative
training has a strong correlation with ILM subtraction from both theoretical
and empirical points of view. Theoretically, we derive that the global optimum
of maximum mutual information (MMI) training shares a similar formula as ILM
subtraction. Empirically, we show that ILM subtraction and sequence
discriminative training achieve similar performance across a wide range of
experiments on Librispeech, including both MMI and minimum Bayes risk (MBR)
criteria, as well as neural transducers and LMs of both full and limited
context. The benefit of ILM subtraction also becomes much smaller after
sequence discriminative training. We also provide an in-depth study to show
that sequence discriminative training has a minimal effect on the commonly used
zero-encoder ILM estimation, but a joint effect on both encoder and prediction
+ joint network for posterior probability reshaping including both ILM and
blank suppression.
- Abstract(参考訳): 内部言語モデル(ILM)サブトラクションは、音声認識のための外部言語モデル(LM)融合を用いたRNN-Transducerの性能向上に広く応用されている。
本研究では, シーケンス判別訓練が, 理論的および経験的観点からのirm減算と強い相関を持つことを示す。
理論的には、最大相互情報(MMI)トレーニングのグローバルな最適化は、ILM減算と類似した公式を共有する。
ILMサブトラクションとシーケンス識別訓練は,MMIおよび最小ベイズリスク(MBR)基準,およびフルコンテキストおよび制限コンテキストにおけるニューラルトランスデューサとLMの両方を含む,幅広い実験で同様の性能を達成できることを実証的に示す。
ILMサブトラクションの利点は、シーケンス判別訓練後にさらに小さくなる。
また, シーケンス判別訓練が, 一般的なゼロエンコーダilm推定に最小限の影響しか及ぼさないが, エンコーダと予測+ジョイントネットワークの両方に, ilmとブランク抑制を含む後方確率再構成のための共同効果があることを示した。
関連論文リスト
- Investigating the Effect of Language Models in Sequence Discriminative
Training for Neural Transducers [36.60689278751483]
文脈長の異なる言語モデル (LM) と, 逐次識別訓練に用いるラベル単位 (音素対単語) の効果について検討した。
Librispeech 実験の結果,単語レベルLM は音素レベルLM よりも優れていた。
この結果から, 系列識別訓練における仮説空間の質の重要性が示唆された。
論文 参考訳(メタデータ) (2023-10-11T09:53:17Z) - CausalLM is not optimal for in-context learning [21.591451511589693]
最近の経験的証拠は、プレフィックス言語モデル(LM)を用いる場合、コンテクスト内学習に基づくトランスフォーマーがより優れていることを示している。
この結果は直感的であるが、理論的には理解されていない。
本研究では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
論文 参考訳(メタデータ) (2023-08-14T03:14:38Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。