論文の概要: Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions
- arxiv url: http://arxiv.org/abs/2406.14701v1
- Date: Thu, 20 Jun 2024 19:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 17:49:36.178587
- Title: Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions
- Title(参考訳): RNNT損失を用いたLLM予測改善のためのプレフィックス・チューニング
- Authors: Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Neeraj Gaur, Zhong Meng,
- Abstract要約: 音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
- 参考スコア(独自算出の注目度): 28.211967723403987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on addressing the constraints faced when applying LLMs to ASR. Recent works utilize prefixLM-type models, which directly apply speech as a prefix to LLMs for ASR. We have found that optimizing speech prefixes leads to better ASR performance and propose applying RNNT loss to perform speech prefix-tuning. This is a simple approach and does not increase the model complexity or alter the inference pipeline. We also propose language-based soft prompting to further improve with frozen LLMs. Empirical analysis on realtime testset from 10 Indic languages demonstrate that our proposed speech prefix-tuning yields improvements with both frozen and fine-tuned LLMs. Our recognition results on an average of 10 Indics show that the proposed prefix-tuning with RNNT loss results in a 12\% relative improvement in WER over the baseline with a fine-tuned LLM. Our proposed approches with the frozen LLM leads to a 31\% relative improvement over basic soft-prompting prefixLM.
- Abstract(参考訳): 本稿では,LSMをASRに適用する場合の制約に対処することに焦点を当てる。
最近の研究はプレフィックスLM型モデルを利用しており、ASRのLLMにプレフィックスとして音声を直接適用している。
音声プレフィックスの最適化により、ASR性能が向上し、音声プレフィックスチューニングにRNNTロスを適用することが提案されている。
これは単純なアプローチであり、モデルの複雑さを高めたり、推論パイプラインを変更したりしない。
また,凍結LDMのさらなる改善のために,言語ベースのソフトプロンプトを提案する。
Indic言語10言語における実時間テストセットの実証分析により,提案した音声プレフィックスチューニングは,凍結および微調整の両方による改善をもたらすことが示された。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値よりも12%向上し,微調整LDMが得られた。
凍結型LDMでは,基本ソフトプロンピングプレフィックスLMよりも31倍の相対的な改善が得られた。
関連論文リスト
- RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs [20.97172337899685]
そこで本研究では,Pinyinの埋め込みシーケンス上で,対応する漢字を生成するための大規模言語モデル(LLM)の事前学習を提案する。
このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。
AISHELL-1コーパスでは,ベースラインに比べてASRタスクが9.5%改善した。
論文 参考訳(メタデータ) (2024-09-24T12:06:31Z) - Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - ProGRes: Prompted Generative Rescoring on ASR n-Best [10.536469576235223]
大規模言語モデル(LLM)は,ビーム探索過程において発生するn-best仮説を効果的に再現することにより,音声認識の性能を向上させる能力を示した。
本稿では, 命令調整型LLMを用いて, 適切にプロンプトされたLLMを用いて生成した新しい仮説を用いて, n-best音声認識仮説を動的に拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T19:14:17Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。