論文の概要: Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition
- arxiv url: http://arxiv.org/abs/2412.16464v1
- Date: Sat, 21 Dec 2024 03:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:19.065100
- Title: Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition
- Title(参考訳): Transducer-Llama:LLMをストリーミングトランスデューサベース音声認識に統合する
- Authors: Keqi Deng, Jinxi Guo, Yingyi Ma, Niko Moritz, Philip C. Woodland, Ozlem Kalinli, Mike Seltzer,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をFactized Transducer(FT)モデルに統合する新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対的なWER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
- 参考スコア(独自算出の注目度): 26.79555533538622
- License:
- Abstract: While large language models (LLMs) have been applied to automatic speech recognition (ASR), the task of making the model streamable remains a challenge. This paper proposes a novel model architecture, Transducer-Llama, that integrates LLMs into a Factorized Transducer (FT) model, naturally enabling streaming capabilities. Furthermore, given that the large vocabulary of LLMs can cause data sparsity issue and increased training costs for spoken language systems, this paper introduces an efficient vocabulary adaptation technique to align LLMs with speech system vocabularies. The results show that directly optimizing the FT model with a strong pre-trained LLM-based predictor using the RNN-T loss yields some but limited improvements over a smaller pre-trained LM predictor. Therefore, this paper proposes a weak-to-strong LM swap strategy, using a weak LM predictor during RNN-T loss training and then replacing it with a strong LLM. After LM replacement, the minimum word error rate (MWER) loss is employed to finetune the integration of the LLM predictor with the Transducer-Llama model. Experiments on the LibriSpeech and large-scale multi-lingual LibriSpeech corpora show that the proposed streaming Transducer-Llama approach gave a 17% relative WER reduction (WERR) over a strong FT baseline and a 32% WERR over an RNN-T baseline.
- Abstract(参考訳): 大規模言語モデル (LLM) は自動音声認識 (ASR) に応用されているが, モデルのストリーム化は依然として課題である。
本稿では,LLMをFactized Transducer(FT)モデルに統合し,ストリーミング機能を自然に実現した新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
さらに,LLMの大規模な語彙がデータ疎結合問題を引き起こし,音声認識システムの訓練コストが増大することを踏まえ,LLMを音声システム語彙と整合させるための効率的な語彙適応手法を提案する。
その結果、RNN-T損失を用いた強力なLLM予測器でFTモデルを直接最適化すると、より小さいLM予測器に比べて若干改善は少ないことがわかった。
そこで本研究では、RNN-T損失トレーニング中に弱いLM予測器を用いて、弱いLMスワップ戦略を提案し、その後、強力なLMに置き換える。
LM置換後、最小単語誤り率(MWER)損失を用いて、LM予測器とTransducer-Llamaモデルの統合を微調整する。
LibriSpeechと大規模多言語コーパスの実験により、提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対WER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation [9.506166330956082]
最適化されたモデルと元のモデルとの差分を測定するためのSFTのトレーニング指標と、トレーニングの有効性を高めることができる損失関数MinorSFTを提案する。
本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,トレーニングの有効性を高めることができる損失関数 MinorSFT を提案する。
論文 参考訳(メタデータ) (2024-08-20T08:32:44Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource
Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。
本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。
本実験は3つのLRLの翻訳品質を著しく改善した。
論文 参考訳(メタデータ) (2024-01-11T00:03:36Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。