論文の概要: HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models
- arxiv url: http://arxiv.org/abs/2309.15701v2
- Date: Mon, 16 Oct 2023 05:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 22:44:35.214823
- Title: HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models
- Title(参考訳): HyPoradise: 大規模言語モデルを用いた生成音声認識のためのオープンベースライン
- Authors: Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi,
Pin-Yu Chen, Eng Siong Chng
- Abstract要約: ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
- 参考スコア(独自算出の注目度): 81.56455625624041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in deep neural networks have allowed automatic speech
recognition (ASR) systems to attain human parity on several publicly available
clean speech datasets. However, even state-of-the-art ASR systems experience
performance degradation when confronted with adverse conditions, as a
well-trained acoustic model is sensitive to variations in the speech domain,
e.g., background noise. Intuitively, humans address this issue by relying on
their linguistic knowledge: the meaning of ambiguous spoken terms is usually
inferred from contextual cues thereby reducing the dependency on the auditory
system. Inspired by this observation, we introduce the first open-source
benchmark to utilize external large language models (LLMs) for ASR error
correction, where N-best decoding hypotheses provide informative elements for
true transcription prediction. This approach is a paradigm shift from the
traditional language model rescoring strategy that can only select one
candidate hypothesis as the output transcription. The proposed benchmark
contains a novel dataset, HyPoradise (HP), encompassing more than 334,000 pairs
of N-best hypotheses and corresponding accurate transcriptions across prevalent
speech domains. Given this dataset, we examine three types of error correction
techniques based on LLMs with varying amounts of labeled
hypotheses-transcription pairs, which gains a significant word error rate (WER)
reduction. Experimental evidence demonstrates the proposed technique achieves a
breakthrough by surpassing the upper bound of traditional re-ranking based
methods. More surprisingly, LLM with reasonable prompt and its generative
capability can even correct those tokens that are missing in N-best list. We
make our results publicly accessible for reproducible pipelines with released
pre-trained models, thus providing a new evaluation paradigm for ASR error
correction with LLMs.
- Abstract(参考訳): ディープニューラルネットワークの進歩により、自動音声認識(ASR)システムは、公開されているクリーンな音声データセットで人間のパリティを達成できるようになった。
直感的には、人間は言語的知識に頼ることでこの問題に対処する: あいまいな言葉の意味は通常、文脈的手がかりから推測されるので、聴覚システムへの依存を減らす。
提案するベンチマークには,334,000組以上のN-best仮説とそれに対応する音声領域の正確な転写を含む新しいデータセットHyPoradise (HP)が含まれている。
そこで本研究では,LLM を用いた ASR 誤り訂正のための新たな評価パラダイムを提供する。
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition [1.2914521751805657]
論文 参考訳(メタデータ) (2021-11-16T11:55:27Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)