論文の概要: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.16007v1
- Date: Wed, 28 Jun 2023 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:05:24.883101
- Title: Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition
- Title(参考訳): 音声認識におけるゼロショット領域適応のための大規模言語モデルの提案
- Authors: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
- Abstract要約: ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
- 参考スコア(独自算出の注目度): 33.07184218085399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Language Models (LMs) has proven to be an effective way to
address domain shifts in speech recognition. However, these approaches usually
require a significant amount of target domain text data for the training of
LMs. Different from these methods, in this work, with only a domain-specific
text prompt, we propose two zero-shot ASR domain adaptation methods using
LLaMA, a 7-billion-parameter large language model (LLM). LLM is used in two
ways: 1) second-pass rescoring: reranking N-best hypotheses of a given ASR
system with LLaMA; 2) deep LLM-fusion: incorporating LLM into the decoder of an
encoder-decoder based ASR system. Experiments show that, with only one domain
prompt, both methods can effectively reduce word error rates (WER) on
out-of-domain TedLium-2 and SPGISpeech datasets. Especially, the deep
LLM-fusion has the advantage of better recall of entity and out-of-vocabulary
words.
- Abstract(参考訳): 言語モデル(LM)の統合は、音声認識におけるドメインシフトに対処する効果的な方法であることが証明されている。
しかし、これらのアプローチは通常、lmsのトレーニングのためにかなりの量のターゲットドメインテキストデータを必要とする。
これらの手法と異なり、ドメイン固有のテキストプロンプトのみで、7ビリオンパラメータ大言語モデル(LLM)であるLLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
LLMは2つの方法で使われます。
1)第2パス再構成:所定のASR系のN-best仮説をLLaMAで再評価すること。
2)深いLLM融合:エンコーダデコーダベースのASRシステムのデコーダにLLMを組み込む。
実験では、1つのドメインプロンプトだけで、両方のメソッドがドメイン外のtedlium-2とspgispeechデータセットでワードエラー率(wer)を効果的に削減できることが示されている。
特に、深いLLM融合は、実体語と外語彙語のより優れたリコールの利点がある。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - FDLLM: A Text Fingerprint Detection Method for LLMs in Multi-Language, Multi-Domain Black-Box Environments [18.755880639770755]
大きな言語モデル(LLM)を使用することで、潜在的なセキュリティリスクが生じる可能性がある。
攻撃者は、このブラックボックスシナリオを利用して悪意のあるモデルをデプロイし、ユーザに提供されるコードにウイルスを埋め込むことができる。
本稿では,Qwen2.5-7Bに基づく最初のLLMGT指紋検出モデルである textbfFDLLM を提案する。
論文 参考訳(メタデータ) (2025-01-27T13:18:40Z) - Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。
復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。
遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-16T03:01:50Z) - Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning [12.676026149146772]
大言語モデル(LLM)は自動音声認識(ASR)を改良した
このようなASRをペアのプロンプトなしでテキストのみのデータに微調整することで、ドメイン固有の知識の有効性を低下させる可能性がある。
ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:22:06Z) - LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding [19.510385758079966]
リアルタイムScene Recommendation(LARR)を用いた大規模言語モデル
本稿では,Large Language Model Aided Real-time Scene Recommendation(LARR)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T10:56:26Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。