論文の概要: Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.06967v1
- Date: Mon, 09 Dec 2024 20:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:05.962298
- Title: Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning
- Title(参考訳): ソフトプロンプトファインチューニングによるLLMベースのASRのための効果的なテキスト適応
- Authors: Yingyi Ma, Zhe Liu, Ozlem Kalinli,
- Abstract要約: 大言語モデル(LLM)は自動音声認識(ASR)を改良した
このようなASRをペアのプロンプトなしでテキストのみのデータに微調整することで、ドメイン固有の知識の有効性を低下させる可能性がある。
ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 12.676026149146772
- License:
- Abstract: The advent of Large Language Models (LLM) has reformed the Automatic Speech Recognition (ASR). Prompting LLM with audio embeddings to generate transcriptions becomes the new state-of-the-art ASR. Despite LLMs being trained with an extensive amount of text corpora, high-quality domain-specific text data can still significantly enhance ASR performance on domain adaptation tasks. Although LLM-based ASR can naturally incorporate more text corpora by fine-tuning the LLM decoder, fine-tuning such ASR on text-only data without paired prompts may diminish the effectiveness of domain-specific knowledge. To mitigate this issue, we propose a two-step soft prompt fine-tuning strategy that enhances domain-specific text adaptation. Experimental results show that text adaptation with our proposed method achieved a relative up to 9% Word Error Rate (WER) reduction and up to 18% Entity Error Rate (EER) reduction on the target domain compared to the baseline ASR. Combining this with domain-specific Language Model (LM) fusion can further improve the EER by a relative 2-5%
- Abstract(参考訳): LLM(Large Language Models)の出現により、音声認識(Automatic Speech Recognition, ASR)が改革された。
音声埋め込みによるLLMのプロンプティングは、新しい最先端のASRとなる。
LLMは大量のテキストコーパスで訓練されているが、高品質なドメイン固有のテキストデータは、ドメイン適応タスクにおけるASRのパフォーマンスを著しく向上させることができる。
LLMをベースとしたASRは、LLMデコーダを微調整することで、自然により多くのテキストコーパスを組み込むことができるが、ペアプロンプトなしでテキストのみのデータに対して、そのようなASRを微調整することは、ドメイン固有の知識の有効性を低下させる可能性がある。
この問題を軽減するために、ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
実験結果から,提案手法によるテキスト適応は,単語誤り率 (WER) が9%,エンティティ誤り率 (EER) が18%まで低下する傾向を示した。
これをドメイン固有言語モデル(LM)融合と組み合わせることで、EERは相対的に2-5%向上する。
関連論文リスト
- CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。
我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文 参考訳(メタデータ) (2024-11-10T11:47:50Z) - Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs [20.97172337899685]
そこで本研究では,Pinyinの埋め込みシーケンス上で,対応する漢字を生成するための大規模言語モデル(LLM)の事前学習を提案する。
このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。
AISHELL-1コーパスでは,ベースラインに比べてASRタスクが9.5%改善した。
論文 参考訳(メタデータ) (2024-09-24T12:06:31Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。
高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。
本稿では,TPRのためのLLM-DA法を提案する。
論文 参考訳(メタデータ) (2024-05-20T11:57:50Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Improving Cross-Domain Low-Resource Text Generation through LLM
Post-Editing: A Programmer-Interpreter Approach [50.400999859808984]
後編集は、大規模言語モデル(LLM)によって生成されたテキストの品質向上に有効であることが証明された。
本稿では,LLMの領域一般化能力を保持するニューラルプログラマ・解釈手法を提案する。
実験により,プログラマ・インタプリタは論理形式変換や低リソース機械翻訳において,GPT-3.5の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-07T06:13:14Z) - Correction Focused Language Model Training for Speech Recognition [14.246583065323192]
本稿では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。
単語レベルのASR誤認度スコアを定義し、従来の単語分布として形成し、LMトレーニングをガイドする。
従来のLMと比較して、修正中心のトレーニングは十分なテキストシナリオにおいて、単語エラー率(WER)を最大5.5%削減する。
論文 参考訳(メタデータ) (2023-10-17T05:10:39Z) - Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition [33.07184218085399]
ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2023-06-28T08:29:00Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。