論文の概要: SALSA: Speedy ASR-LLM Synchronous Aggregation
- arxiv url: http://arxiv.org/abs/2408.16542v1
- Date: Thu, 29 Aug 2024 14:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:33:01.514030
- Title: SALSA: Speedy ASR-LLM Synchronous Aggregation
- Title(参考訳): SALSA:高速ASR-LLM同期アグリゲーション
- Authors: Ashish Mittal, Darshan Prabhu, Sunita Sarawagi, Preethi Jyothi,
- Abstract要約: 本研究では,ASRのデコーダ層をLLMデコーダに結合し,両デコーダを同期的に進行させるSALSAを提案する。
FLEURSベンチマークでは,8つの低リソース言語上でSALSAを評価し,最大38%のWER削減を実現した。
- 参考スコア(独自算出の注目度): 40.91241351045586
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Harnessing pre-trained LLMs to improve ASR systems, particularly for low-resource languages, is now an emerging area of research. Existing methods range from using LLMs for ASR error correction to tightly coupled systems that replace the ASR decoder with the LLM. These approaches either increase decoding time or require expensive training of the cross-attention layers. We propose SALSA, which couples the decoder layers of the ASR to the LLM decoder, while synchronously advancing both decoders. Such coupling is performed with a simple projection of the last decoder state, and is thus significantly more training efficient than earlier approaches. A challenge of our proposed coupling is handling the mismatch between the tokenizers of the LLM and ASR systems. We handle this mismatch using cascading tokenization with respect to the LLM and ASR vocabularies. We evaluate SALSA on 8 low-resource languages in the FLEURS benchmark, yielding substantial WER reductions of up to 38%.
- Abstract(参考訳): ASRシステム、特に低リソース言語を改善するために事前訓練されたLLMは、現在、新たな研究領域となっている。
既存の手法は、ALSエラー訂正にLLMを使うことから、ALSデコーダをLSMに置き換える密結合システムまで様々である。
これらのアプローチはデコード時間を増やすか、クロスアテンションレイヤの高価なトレーニングを必要とする。
本研究では,ASRのデコーダ層をLLMデコーダに結合し,両デコーダを同期的に進行させるSALSAを提案する。
このような結合は、最後のデコーダ状態の単純なプロジェクションで実行され、したがって、以前のアプローチよりもはるかに訓練効率が高い。
提案手法の課題は, LLM と ASR システムのトークン化器間のミスマッチ処理である。
LLMとASRの語彙に対するカスケードトークン化を用いて、このミスマッチを処理する。
FLEURSベンチマークでは,8つの低リソース言語上でSALSAを評価し,最大38%のWER削減を実現した。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction [34.32834323898953]
自動音声認識(ASR)のための生成誤り訂正(GER)は、ASRの誤りに対処するための意味的および音声学的改善を提供することを目的としている。
本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。
また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。
論文 参考訳(メタデータ) (2024-08-29T00:18:12Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition [21.516152600963775]
Denoising LM (DLM) は大量の合成データで訓練された$textitscaled$エラー補正モデルである。
DLMは、$textittest-clean$で1.5%のワードエラー率(WER)、$textittest-other$で3.3%のWERを達成する。
論文 参考訳(メタデータ) (2024-05-24T05:05:12Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Can Generative Large Language Models Perform ASR Error Correction? [16.246481696611117]
生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-09T13:38:25Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。