論文の概要: Iterative Shallow Fusion of Backward Language Model for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.11010v1
- Date: Tue, 17 Oct 2023 05:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 16:42:16.316132
- Title: Iterative Shallow Fusion of Backward Language Model for End-to-End
Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための後方言語モデルの反復浅層融合
- Authors: Atsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara, Marc
Delcroix
- Abstract要約: エンドツーエンド自動音声認識(ASR)のための外部後方言語モデル(BLM)を利用する新しい浅層融合(SF)法を提案する。
前回の繰り返しで計算されたスコアに対して新たに算出されたBLMスコアに代えて、BLMを後方方向の部分的なASR仮説(すなわち、次のトークンからスタートシンボルまで)に繰り返し適用する。
注意に基づくエンコーダデコーダASRシステムを用いた実験では,FIFはFLMを用いたSFと同等の性能を示した。
- 参考スコア(独自算出の注目度): 48.328702724611496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new shallow fusion (SF) method to exploit an external backward
language model (BLM) for end-to-end automatic speech recognition (ASR). The BLM
has complementary characteristics with a forward language model (FLM), and the
effectiveness of their combination has been confirmed by rescoring ASR
hypotheses as post-processing. In the proposed SF, we iteratively apply the BLM
to partial ASR hypotheses in the backward direction (i.e., from the possible
next token to the start symbol) during decoding, substituting the newly
calculated BLM scores for the scores calculated at the last iteration. To
enhance the effectiveness of this iterative SF (ISF), we train a partial
sentence-aware BLM (PBLM) using reversed text data including partial sentences,
considering the framework of ISF. In experiments using an attention-based
encoder-decoder ASR system, we confirmed that ISF using the PBLM shows
comparable performance with SF using the FLM. By performing ISF, early pruning
of prospective hypotheses can be prevented during decoding, and we can obtain a
performance improvement compared to applying the PBLM as post-processing.
Finally, we confirmed that, by combining SF and ISF, further performance
improvement can be obtained thanks to the complementarity of the FLM and PBLM.
- Abstract(参考訳): 本稿では,言語モデル(BLM)をエンド・ツー・エンド自動音声認識(ASR)に利用するための新しい浅層融合法を提案する。
blmは前方言語モデル(flm)と相補的な特徴を有しており,asr仮説を後処理として再現することでそれらの組み合わせの有効性を確認している。
提案SFでは、復号時にBLMを後方方向(つまり次のトークンからスタートシンボルまで)の部分的なASR仮説に繰り返し適用し、前回の繰り返しで計算したスコアに対して新たに算出されたBLMスコアを置換する。
この反復SF(ISF)の有効性を高めるために,部分文を含む逆テキストデータを用いて部分文認識BLM(PBLM)をトレーニングする。
注意に基づくエンコーダデコーダASRシステムを用いた実験では,PBLMを用いたISFがFLMを用いたSFと同等の性能を示した。
ISFにより、復号時に予測仮説の早期切断を防止でき、PBLMを後処理として適用した場合と比較して性能改善が得られる。
最後に,SFとICFを組み合わせることで,FLMとPBLMの相補性により,さらなる性能向上が得られることを確認した。
関連論文リスト
- TRANSPOSE: Transitional Approaches for Spatially-Aware LFI Resilient FSM Encoding [2.236957801565796]
有限状態マシン(FSM)は、機密情報や特権CPU状態へのアクセスを含むシーケンシャル回路を規制する。
レーザベースのフォールトインジェクション(LFI)は、個々のフリップフロップ(FF)値を変更することで、敵がチップのセキュリティを脅かすことができるようになってきている。
論文 参考訳(メタデータ) (2024-11-05T04:18:47Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions [28.211967723403987]
音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-06-20T19:50:49Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文 参考訳(メタデータ) (2021-04-21T00:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。