論文の概要: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.16007v1
- Date: Wed, 28 Jun 2023 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:05:24.883101
- Title: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- Title(参考訳): 音声認識におけるゼロショット領域適応のための大規模言語モデルの提案
- Authors: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
- Abstract要約: ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
- 参考スコア(独自算出の注目度): 33.07184218085399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Language Models (LMs) has proven to be an effective way to
address domain shifts in speech recognition. However, these approaches usually
require a significant amount of target domain text data for the training of
LMs. Different from these methods, in this work, with only a domain-specific
text prompt, we propose two zero-shot ASR domain adaptation methods using
LLaMA, a 7-billion-parameter large language model (LLM). LLM is used in two
ways: 1) second-pass rescoring: reranking N-best hypotheses of a given ASR
system with LLaMA; 2) deep LLM-fusion: incorporating LLM into the decoder of an
encoder-decoder based ASR system. Experiments show that, with only one domain
prompt, both methods can effectively reduce word error rates (WER) on
out-of-domain TedLium-2 and SPGISpeech datasets. Especially, the deep
LLM-fusion has the advantage of better recall of entity and out-of-vocabulary
words.
- Abstract(参考訳): 言語モデル(LM)の統合は、音声認識におけるドメインシフトに対処する効果的な方法であることが証明されている。
しかし、これらのアプローチは通常、lmsのトレーニングのためにかなりの量のターゲットドメインテキストデータを必要とする。
これらの手法と異なり、ドメイン固有のテキストプロンプトのみで、7ビリオンパラメータ大言語モデル(LLM)であるLLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
LLMは2つの方法で使われます。
1)第2パス再構成:所定のASR系のN-best仮説をLLaMAで再評価すること。
2)深いLLM融合:エンコーダデコーダベースのASRシステムのデコーダにLLMを組み込む。
実験では、1つのドメインプロンプトだけで、両方のメソッドがドメイン外のtedlium-2とspgispeechデータセットでワードエラー率(wer)を効果的に削減できることが示されている。
特に、深いLLM融合は、実体語と外語彙語のより優れたリコールの利点がある。
関連論文リスト
- Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。