論文の概要: Lattice Rescoring Based on Large Ensemble of Complementary Neural
Language Models
- arxiv url: http://arxiv.org/abs/2312.12764v1
- Date: Wed, 20 Dec 2023 04:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:52:43.892426
- Title: Lattice Rescoring Based on Large Ensemble of Complementary Neural
Language Models
- Title(参考訳): 相補的ニューラル言語モデルの大規模アンサンブルに基づく格子再構成
- Authors: Atsunori Ogawa, Naohiro Tawara, Marc Delcroix, Shoko Araki
- Abstract要約: 本研究では, 音声認識仮説に基づく格子再構成における, 高度なニューラルネットワークモデル (NLM) の大規模なアンサンブルの有効性について検討する。
講義音声コーパスを用いた実験では,8つのNLMを組み合わせ,文脈担持を用いて,ASR 1-bestベースラインから24.4%の単語誤り率を低減した。
- 参考スコア(独自算出の注目度): 50.164379437671904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the effectiveness of using a large ensemble of advanced neural
language models (NLMs) for lattice rescoring on automatic speech recognition
(ASR) hypotheses. Previous studies have reported the effectiveness of combining
a small number of NLMs. In contrast, in this study, we combine up to eight
NLMs, i.e., forward/backward long short-term memory/Transformer-LMs that are
trained with two different random initialization seeds. We combine these NLMs
through iterative lattice generation. Since these NLMs work complementarily
with each other, by combining them one by one at each rescoring iteration,
language scores attached to given lattice arcs can be gradually refined.
Consequently, errors of the ASR hypotheses can be gradually reduced. We also
investigate the effectiveness of carrying over contextual information (previous
rescoring results) across a lattice sequence of a long speech such as a lecture
speech. In experiments using a lecture speech corpus, by combining the eight
NLMs and using context carry-over, we obtained a 24.4% relative word error rate
reduction from the ASR 1-best baseline. For further comparison, we performed
simultaneous (i.e., non-iterative) NLM combination and 100-best rescoring using
the large ensemble of NLMs, which confirmed the advantage of lattice rescoring
with iterative NLM combination.
- Abstract(参考訳): 自動音声認識 (asr) 仮説に対する格子強調法として, 先進的ニューラルネットワークモデル (nlms) を用いた場合の有効性について検討した。
これまでの研究では、少数のNLMを組み合わせる効果が報告されている。
対照的に、本研究では最大8個のNLM、すなわち2つの異なるランダム初期化シードを用いて訓練された前後長短期記憶/トランスフォーマー-LMを組み合わせる。
これらのNLMを反復格子生成により結合する。
これらのNLMは相補的に機能するため、繰り返しの繰り返しごとに1つずつ組み合わせることで、与えられた格子弧に付随する言語スコアを徐々に洗練することができる。
これにより、ASR仮説の誤差を徐々に減少させることができる。
また,講義音声のような長い音声の格子列をまたいで,文脈情報(過去の再描画結果)を伝達する効果についても検討した。
講義音声コーパスを用いた実験では,8つのNLMを組み合わせ,文脈担持を用いて,ASR 1-bestベースラインから24.4%の単語誤り率を低減した。
さらに比較するために,NLMの大規模なアンサンブルを用いて,NLM結合と100-best再構成を同時実施し,繰り返しNLM結合による格子再構成の利点を確認した。
関連論文リスト
- Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。
復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。
遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-16T03:01:50Z) - Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions [28.211967723403987]
音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-06-20T19:50:49Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Neural-FST Class Language Model for End-to-End Speech Recognition [30.670375747577694]
エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル(NFCLM)を提案する。
その結果,NFCLMは単語誤り率においてNNLMを15.8%上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-28T00:20:57Z) - "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文 参考訳(メタデータ) (2021-04-21T00:15:21Z) - LT-LM: a novel non-autoregressive language model for single-shot lattice
rescoring [55.16665077221941]
本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。
当社のリコリングポリシーの主な特徴は、新しい非回帰的格子変換言語モデル(LT-LM)です。
論文 参考訳(メタデータ) (2021-04-06T14:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。