論文の概要: Iterative Shallow Fusion of Backward Language Model for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.11010v1
- Date: Tue, 17 Oct 2023 05:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 16:42:16.316132
- Title: Iterative Shallow Fusion of Backward Language Model for End-to-End
Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための後方言語モデルの反復浅層融合
- Authors: Atsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara, Marc
Delcroix
- Abstract要約: エンドツーエンド自動音声認識(ASR)のための外部後方言語モデル(BLM)を利用する新しい浅層融合(SF)法を提案する。
前回の繰り返しで計算されたスコアに対して新たに算出されたBLMスコアに代えて、BLMを後方方向の部分的なASR仮説(すなわち、次のトークンからスタートシンボルまで)に繰り返し適用する。
注意に基づくエンコーダデコーダASRシステムを用いた実験では,FIFはFLMを用いたSFと同等の性能を示した。
- 参考スコア(独自算出の注目度): 48.328702724611496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new shallow fusion (SF) method to exploit an external backward
language model (BLM) for end-to-end automatic speech recognition (ASR). The BLM
has complementary characteristics with a forward language model (FLM), and the
effectiveness of their combination has been confirmed by rescoring ASR
hypotheses as post-processing. In the proposed SF, we iteratively apply the BLM
to partial ASR hypotheses in the backward direction (i.e., from the possible
next token to the start symbol) during decoding, substituting the newly
calculated BLM scores for the scores calculated at the last iteration. To
enhance the effectiveness of this iterative SF (ISF), we train a partial
sentence-aware BLM (PBLM) using reversed text data including partial sentences,
considering the framework of ISF. In experiments using an attention-based
encoder-decoder ASR system, we confirmed that ISF using the PBLM shows
comparable performance with SF using the FLM. By performing ISF, early pruning
of prospective hypotheses can be prevented during decoding, and we can obtain a
performance improvement compared to applying the PBLM as post-processing.
Finally, we confirmed that, by combining SF and ISF, further performance
improvement can be obtained thanks to the complementarity of the FLM and PBLM.
- Abstract(参考訳): 本稿では,言語モデル(BLM)をエンド・ツー・エンド自動音声認識(ASR)に利用するための新しい浅層融合法を提案する。
blmは前方言語モデル(flm)と相補的な特徴を有しており,asr仮説を後処理として再現することでそれらの組み合わせの有効性を確認している。
提案SFでは、復号時にBLMを後方方向(つまり次のトークンからスタートシンボルまで)の部分的なASR仮説に繰り返し適用し、前回の繰り返しで計算したスコアに対して新たに算出されたBLMスコアを置換する。
この反復SF(ISF)の有効性を高めるために,部分文を含む逆テキストデータを用いて部分文認識BLM(PBLM)をトレーニングする。
注意に基づくエンコーダデコーダASRシステムを用いた実験では,PBLMを用いたISFがFLMを用いたSFと同等の性能を示した。
ISFにより、復号時に予測仮説の早期切断を防止でき、PBLMを後処理として適用した場合と比較して性能改善が得られる。
最後に,SFとICFを組み合わせることで,FLMとPBLMの相補性により,さらなる性能向上が得られることを確認した。
関連論文リスト
- Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。
復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。
遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-16T03:01:50Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
本稿では,Dueling Bandits (DB) 問題下での文脈内意思決定者としてLarge Language Models (LLMs) を初めて検討する。
GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Llama 3.1, o1-Previewの9つのDBアルゴリズムとの比較を行った。
我々の最強のLCMであるGPT-4 Turboは、驚くほど弱い後悔を実現するため、ゼロショットの相対的意思決定能力を持っていることを示す。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z) - Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions [28.211967723403987]
音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-06-20T19:50:49Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文 参考訳(メタデータ) (2021-04-21T00:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。