論文の概要: Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting
- arxiv url: http://arxiv.org/abs/2309.15649v2
- Date: Tue, 10 Oct 2023 09:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:58:13.143530
- Title: Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting
- Title(参考訳): 大きな言語モデルとタスク活性化プロンプトを用いた生成音声認識誤り訂正
- Authors: Chao-Han Huck Yang, Yile Gu, Yi-Chieh Liu, Shalini Ghosh, Ivan Bulyko,
Andreas Stolcke
- Abstract要約: 本稿では,大規模言語モデル(LLM)の音声認識後処理機能について検討する。
我々は、ゼロショットと少数ショットのインコンテキスト学習と、新しいタスクアクティベーション・プロンプト法という、異なるプロンプト方式を評価する。
凍結LDMを用いた文脈内学習でのみ再構成を行うことで、ドメインチューニングLMによる再構成と競合する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 32.70214938434769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the ability of large language models (LLMs) to act as speech
recognition post-processors that perform rescoring and error correction. Our
first focus is on instruction prompting to let LLMs perform these task without
fine-tuning, for which we evaluate different prompting schemes, both zero- and
few-shot in-context learning, and a novel task activation prompting method that
combines causal instructions and demonstration to increase its context windows.
Next, we show that rescoring only by in-context learning with frozen LLMs
achieves results that are competitive with rescoring by domain-tuned LMs, using
a pretrained first-pass recognition system and rescoring output on two
out-of-domain tasks (ATIS and WSJ). By combining prompting techniques with
fine-tuning we achieve error rates below the N-best oracle level, showcasing
the generalization power of the LLMs.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) が音声認識後処理として機能し,再描画や誤り訂正を行う能力について検討する。
最初の焦点は、LLMが微調整なしでこれらのタスクを実行するように促すことであり、そこでは、ゼロショットと少数ショットのインコンテキスト学習の両方の異なるプロンプトスキームと、因果命令と実演を組み合わせた新しいタスクアクティベーションプロンプト法を評価し、コンテキストウィンドウを増やす。
次に, 既訓練の1パス認識システムを用いて, 2つの外部タスク (ATIS, WSJ) の出力を再現することにより, ドメイン学習されたLMの再構成と競合する結果が得られることを示す。
ファインチューニング技術と組み合わせることで,N-best Oracleレベル以下での誤差率を実現し,LLMの一般化能力を示す。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Leveraging Large Language Models for Exploiting ASR Uncertainty [16.740712975166407]
大規模な言語モデルは、書き起こしのための既製の音声認識システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。
我々は,高い単語誤り率でLLMの発話意図を理解する能力を制限する音声意図分類タスクに取り組む。
我々は,誤り発生1-best仮説に代えて,ASR仮説のn-bestリストでLLMを推し進めることを提案する。
論文 参考訳(メタデータ) (2023-09-09T17:02:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。