論文の概要: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.16007v1
- Date: Wed, 28 Jun 2023 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:05:24.883101
- Title: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- Title(参考訳): 音声認識におけるゼロショット領域適応のための大規模言語モデルの提案
- Authors: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
- Abstract要約: ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
- 参考スコア(独自算出の注目度): 33.07184218085399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Language Models (LMs) has proven to be an effective way to
address domain shifts in speech recognition. However, these approaches usually
require a significant amount of target domain text data for the training of
LMs. Different from these methods, in this work, with only a domain-specific
text prompt, we propose two zero-shot ASR domain adaptation methods using
LLaMA, a 7-billion-parameter large language model (LLM). LLM is used in two
ways: 1) second-pass rescoring: reranking N-best hypotheses of a given ASR
system with LLaMA; 2) deep LLM-fusion: incorporating LLM into the decoder of an
encoder-decoder based ASR system. Experiments show that, with only one domain
prompt, both methods can effectively reduce word error rates (WER) on
out-of-domain TedLium-2 and SPGISpeech datasets. Especially, the deep
LLM-fusion has the advantage of better recall of entity and out-of-vocabulary
words.
- Abstract(参考訳): 言語モデル(LM)の統合は、音声認識におけるドメインシフトに対処する効果的な方法であることが証明されている。
しかし、これらのアプローチは通常、lmsのトレーニングのためにかなりの量のターゲットドメインテキストデータを必要とする。
これらの手法と異なり、ドメイン固有のテキストプロンプトのみで、7ビリオンパラメータ大言語モデル(LLM)であるLLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
LLMは2つの方法で使われます。
1)第2パス再構成:所定のASR系のN-best仮説をLLaMAで再評価すること。
2)深いLLM融合:エンコーダデコーダベースのASRシステムのデコーダにLLMを組み込む。
実験では、1つのドメインプロンプトだけで、両方のメソッドがドメイン外のtedlium-2とspgispeechデータセットでワードエラー率(wer)を効果的に削減できることが示されている。
特に、深いLLM融合は、実体語と外語彙語のより優れたリコールの利点がある。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。