論文の概要: Neural-FST Class Language Model for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2201.11867v1
- Date: Fri, 28 Jan 2022 00:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:51:41.239985
- Title: Neural-FST Class Language Model for End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル
- Authors: Antoine Bruguier, Duc Le, Rohit Prabhavalkar, Dangna Li, Zhe Liu, Bo
Wang, Eun Chang, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer
- Abstract要約: エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル(NFCLM)を提案する。
その結果,NFCLMは単語誤り率においてNNLMを15.8%上回っていることがわかった。
- 参考スコア(独自算出の注目度): 30.670375747577694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Neural-FST Class Language Model (NFCLM) for end-to-end speech
recognition, a novel method that combines neural network language models
(NNLMs) and finite state transducers (FSTs) in a mathematically consistent
framework. Our method utilizes a background NNLM which models generic
background text together with a collection of domain-specific entities modeled
as individual FSTs. Each output token is generated by a mixture of these
components; the mixture weights are estimated with a separately trained neural
decider. We show that NFCLM significantly outperforms NNLM by 15.8% relative in
terms of Word Error Rate. NFCLM achieves similar performance as traditional
NNLM and FST shallow fusion while being less prone to overbiasing and 12 times
more compact, making it more suitable for on-device usage.
- Abstract(参考訳): ニューラルネットワーク言語モデル(NNLM)と有限状態トランスデューサ(FST)を数学的に一貫した枠組みで組み合わせた,エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル(NFCLM)を提案する。
提案手法は,汎用的な背景テキストをモデル化するバックグラウンドNNLMと,個別FSTとしてモデル化されたドメイン固有エンティティのコレクションを利用する。
それぞれの出力トークンはこれらの成分の混合によって生成され、混合重みは個別に訓練された神経決定器で推定される。
その結果,NFCLMは単語誤り率においてNNLMを15.8%上回っていることがわかった。
NFCLM は従来の NNLM や FST の浅層核融合と同等の性能を保ちながら、オーバーバイアスや12倍のコンパクトさを保ち、デバイス上での使用に適している。
関連論文リスト
- Lattice Rescoring Based on Large Ensemble of Complementary Neural
Language Models [50.164379437671904]
本研究では, 音声認識仮説に基づく格子再構成における, 高度なニューラルネットワークモデル (NLM) の大規模なアンサンブルの有効性について検討する。
講義音声コーパスを用いた実験では,8つのNLMを組み合わせ,文脈担持を用いて,ASR 1-bestベースラインから24.4%の単語誤り率を低減した。
論文 参考訳(メタデータ) (2023-12-20T04:52:24Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - External Language Model Integration for Factorized Neural Transducers [7.5969913968845155]
外部言語モデルを用いた因子化ニューラルトランスデューサ(FNT)の適応法を提案する。
その結果, 各シナリオにおける語彙順応と, 1つのエンティティリッチシナリオにおける最大60%のWERRの加算ゲインで平均18%のWERRが得られた。
論文 参考訳(メタデータ) (2023-05-26T23:30:21Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization [13.929356163132558]
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。
既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T21:34:35Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文 参考訳(メタデータ) (2021-04-21T00:15:21Z) - NSL: Hybrid Interpretable Learning From Noisy Raw Data [66.15862011405882]
本稿では,ラベル付き非構造データから解釈可能なルールを学習するニューラルシンボリック学習フレームワークNSLを提案する。
NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。
NSLは、MNISTデータから堅牢なルールを学び、ニューラルネットワークやランダムフォレストベースラインと比較して、比較または優れた精度を達成できることを実証します。
論文 参考訳(メタデータ) (2020-12-09T13:02:44Z) - Federated Marginal Personalization for ASR Rescoring [13.086007347727206]
Federated marginal Personalization(FMP)は、フェデレートラーニング(FL)を用いた個人用デバイス上でのパーソナライズされたニューラルネットワーク言語モデル(NNLM)を継続的に更新する新しい方法である。
FMPは、単語のグローバルおよびパーソナライズされた辺縁分布を定期的に推定し、各単語固有の適応係数によってNNLMから確率を調整する。
2つの音声評価データセットによる実験は、最小単語誤り率(WER)の低下を示す。
論文 参考訳(メタデータ) (2020-12-01T23:54:41Z) - Improved Neural Language Model Fusion for Streaming Recurrent Neural
Network Transducer [28.697119605752643]
リカレントニューラルネットワークトランスデューサ(RNN-T)は暗黙のニューラルネットワーク言語モデル(NNLM)を備えており、トレーニング中に不適切なテキストデータを容易に活用できない。
従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。
トレーニング時間と推論時間の両方において、RNN-Tが外部NNLMを活用できるように、これらの手法の拡張を提案する。
論文 参考訳(メタデータ) (2020-10-26T20:10:12Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。