Fugu-MT 論文翻訳(概要): Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition

論文の概要: Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition

arxiv url: http://arxiv.org/abs/2310.11010v1
Date: Tue, 17 Oct 2023 05:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 16:42:16.316132
Title: Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition
Title（参考訳）: エンドツーエンド音声認識のための後方言語モデルの反復浅層融合
Authors: Atsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara, Marc Delcroix
Abstract要約: エンドツーエンド自動音声認識(ASR)のための外部後方言語モデル(BLM)を利用する新しい浅層融合(SF)法を提案する。前回の繰り返しで計算されたスコアに対して新たに算出されたBLMスコアに代えて、BLMを後方方向の部分的なASR仮説(すなわち、次のトークンからスタートシンボルまで)に繰り返し適用する。注意に基づくエンコーダデコーダASRシステムを用いた実験では,FIFはFLMを用いたSFと同等の性能を示した。
参考スコア（独自算出の注目度）: 48.328702724611496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new shallow fusion (SF) method to exploit an external backward language model (BLM) for end-to-end automatic speech recognition (ASR). The BLM has complementary characteristics with a forward language model (FLM), and the effectiveness of their combination has been confirmed by rescoring ASR hypotheses as post-processing. In the proposed SF, we iteratively apply the BLM to partial ASR hypotheses in the backward direction (i.e., from the possible next token to the start symbol) during decoding, substituting the newly calculated BLM scores for the scores calculated at the last iteration. To enhance the effectiveness of this iterative SF (ISF), we train a partial sentence-aware BLM (PBLM) using reversed text data including partial sentences, considering the framework of ISF. In experiments using an attention-based encoder-decoder ASR system, we confirmed that ISF using the PBLM shows comparable performance with SF using the FLM. By performing ISF, early pruning of prospective hypotheses can be prevented during decoding, and we can obtain a performance improvement compared to applying the PBLM as post-processing. Finally, we confirmed that, by combining SF and ISF, further performance improvement can be obtained thanks to the complementarity of the FLM and PBLM.
Abstract（参考訳）: 本稿では,言語モデル(BLM)をエンド・ツー・エンド自動音声認識(ASR)に利用するための新しい浅層融合法を提案する。 blmは前方言語モデル(flm)と相補的な特徴を有しており,asr仮説を後処理として再現することでそれらの組み合わせの有効性を確認している。提案SFでは、復号時にBLMを後方方向(つまり次のトークンからスタートシンボルまで)の部分的なASR仮説に繰り返し適用し、前回の繰り返しで計算したスコアに対して新たに算出されたBLMスコアを置換する。この反復SF(ISF)の有効性を高めるために,部分文を含む逆テキストデータを用いて部分文認識BLM(PBLM)をトレーニングする。注意に基づくエンコーダデコーダASRシステムを用いた実験では,PBLMを用いたISFがFLMを用いたSFと同等の性能を示した。 ISFにより、復号時に予測仮説の早期切断を防止でき、PBLMを後処理として適用した場合と比較して性能改善が得られる。最後に,SFとICFを組み合わせることで,FLMとPBLMの相補性により,さらなる性能向上が得られることを確認した。

関連論文リスト

Session-Based Recommendation with Validated and Enriched LLM Intents [23.765167316395583]
セッションベースのレコメンデーション(SBR)は、匿名ユーザの次の項目をタイムリーに予測することを目的としている。最近の研究は,大規模言語モデル(LLM)を用いたセッションの基盤となるユーザ意図の推測について検討している。 SBRのための検証および拡張LLM生成インテントを利用する2段階フレームワークVELI4SBRを提案する。
論文参考訳（メタデータ） (2025-08-01T12:11:10Z)
Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文参考訳（メタデータ） (2025-05-16T15:15:19Z)
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文参考訳（メタデータ） (2025-04-13T07:49:08Z)
LLM-VPRF: Large Language Model Based Vector Pseudo Relevance Feedback [31.017301950179295]
ベクトルPseudo Relevance Feedback (VPRF) はBERTに基づく高密度検索システムの改善に有望な結果を示した。本稿では,大言語モデル(LLM)に基づく高密度検索器におけるVPRFの一般化可能性について検討する。
論文参考訳（メタデータ） (2025-04-02T08:02:01Z)
Pseudo-Relevance Feedback Can Improve Zero-Shot LLM-Based Dense Retrieval [29.934928091542375]
Pseudo-Relevance feedback (PRF) は、最初に検索されたドキュメントを活用してクエリを洗練し、検索効率を向上させる。本稿では,大規模言語モデル(LLM)が,ゼロショットLLMに基づく高密度検索においてPRFをどのように促進するかを検討する。
論文参考訳（メタデータ） (2025-03-19T04:30:20Z)
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文参考訳（メタデータ） (2025-01-16T03:01:50Z)
Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。 HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文参考訳（メタデータ） (2024-12-17T09:08:18Z)
TRANSPOSE: Transitional Approaches for Spatially-Aware LFI Resilient FSM Encoding [2.236957801565796]
有限状態マシン(FSM)は、機密情報や特権CPU状態へのアクセスを含むシーケンシャル回路を規制する。レーザベースのフォールトインジェクション(LFI)は、個々のフリップフロップ(FF)値を変更することで、敵がチップのセキュリティを脅かすことができるようになってきている。
論文参考訳（メタデータ） (2024-11-05T04:18:47Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
本稿では,Dueling Bandits (DB) 問題下での文脈内意思決定者としてLarge Language Models (LLMs) を初めて検討する。 GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Llama 3.1, o1-Previewの9つのDBアルゴリズムとの比較を行った。我々の最強のLCMであるGPT-4 Turboは、驚くほど弱い後悔を実現するため、ゼロショットの相対的意思決定能力を持っていることを示す。
論文参考訳（メタデータ） (2024-07-02T02:18:14Z)
Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions [28.211967723403987]
音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
論文参考訳（メタデータ） (2024-06-20T19:50:49Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文参考訳（メタデータ） (2022-11-28T05:53:09Z)
On Language Model Integration for RNN Transducer based Speech Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。 ILM補正による性能改善の2つの主な理由を復号化解釈する。また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-13T16:30:46Z)
"What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in Conversational Agents [13.586996848831543]
ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
論文参考訳（メタデータ） (2021-04-21T00:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。