論文の概要: Multi-stage Large Language Model Correction for Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.11532v1
- Date: Tue, 17 Oct 2023 19:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:37:01.431829
- Title: Multi-stage Large Language Model Correction for Speech Recognition
- Title(参考訳): 音声認識のための多段大言語モデル補正
- Authors: Jie Pu, Thai-Son Nguyen, Sebastian St\"uker
- Abstract要約: 本稿では,従来の言語モデルの再構成とLLMプロンプトを組み合わせるための,新しいマルチステージアプローチを提案する。
提案手法の有効性を,競争力のあるASRシステムに対するWERの10%の相対的な改善を示すことによって実証した。
- 参考スコア(独自算出の注目度): 8.293547191420078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we investigate the usage of large language models (LLMs) to
improve the performance of competitive speech recognition systems. Different
from traditional language models that focus on one single data domain, the rise
of LLMs brings us the opportunity to push the limit of state-of-the-art ASR
performance, and at the same time to achieve higher robustness and generalize
effectively across multiple domains. Motivated by this, we propose a novel
multi-stage approach to combine traditional language model re-scoring and LLM
prompting. Specifically, the proposed method has two stages: the first stage
uses a language model to re-score an N-best list of ASR hypotheses and run a
confidence check; The second stage uses prompts to a LLM to perform ASR error
correction on less confident results from the first stage. Our experimental
results demonstrate the effectiveness of the proposed method by showing a 10% ~
20% relative improvement in WER over a competitive ASR system -- across
multiple test domains.
- Abstract(参考訳): 本稿では,競合音声認識システムの性能を向上させるために,大規模言語モデル(llms)の利用について検討する。
単一のデータドメインにフォーカスした従来の言語モデルとは異なり、llmの台頭は最先端のasr性能の限界を押し上げる機会を与え、同時に高い堅牢性を実現し、複数のドメインにまたがって効果的に一般化する。
そこで本研究では,従来の言語モデル再構成とLLMプロンプトを組み合わせるための,新しいマルチステージアプローチを提案する。
第一段階は言語モデルを用いてasr仮説のn-bestリストを再設計し、信頼性チェックを実行し、第二段階はllmにプロンプトを使用して、第一段階からの自信の低い結果に対してasrエラー訂正を行う。
提案手法の有効性を,複数のテスト領域にまたがる競合ASRシステムに対して,WERの10%~20%の相対的改善を示すことによって実証した。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Correction Focused Language Model Training for Speech Recognition [14.246583065323192]
本稿では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。
単語レベルのASR誤認度スコアを定義し、従来の単語分布として形成し、LMトレーニングをガイドする。
従来のLMと比較して、修正中心のトレーニングは十分なテキストシナリオにおいて、単語エラー率(WER)を最大5.5%削減する。
論文 参考訳(メタデータ) (2023-10-17T05:10:39Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting [32.70214938434769]
本稿では,大規模言語モデル(LLM)の音声認識後処理機能について検討する。
我々は、ゼロショットと少数ショットのインコンテキスト学習と、新しいタスクアクティベーション・プロンプト法という、異なるプロンプト方式を評価する。
凍結LDMを用いた文脈内学習でのみ再構成を行うことで、ドメインチューニングLMによる再構成と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-27T13:36:03Z) - Leveraging Large Language Models for Exploiting ASR Uncertainty [16.740712975166407]
大規模な言語モデルは、書き起こしのための既製の音声認識システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。
我々は,高い単語誤り率でLLMの発話意図を理解する能力を制限する音声意図分類タスクに取り組む。
我々は,誤り発生1-best仮説に代えて,ASR仮説のn-bestリストでLLMを推し進めることを提案する。
論文 参考訳(メタデータ) (2023-09-09T17:02:33Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。