Fugu-MT 論文翻訳(概要): HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models

論文の概要: HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models

arxiv url: http://arxiv.org/abs/2309.15701v2
Date: Mon, 16 Oct 2023 05:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 22:44:35.214823
Title: HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models
Title（参考訳）: HyPoradise: 大規模言語モデルを用いた生成音声認識のためのオープンベースライン
Authors: Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng
Abstract要約: ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
参考スコア（独自算出の注目度）: 81.56455625624041
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in deep neural networks have allowed automatic speech recognition (ASR) systems to attain human parity on several publicly available clean speech datasets. However, even state-of-the-art ASR systems experience performance degradation when confronted with adverse conditions, as a well-trained acoustic model is sensitive to variations in the speech domain, e.g., background noise. Intuitively, humans address this issue by relying on their linguistic knowledge: the meaning of ambiguous spoken terms is usually inferred from contextual cues thereby reducing the dependency on the auditory system. Inspired by this observation, we introduce the first open-source benchmark to utilize external large language models (LLMs) for ASR error correction, where N-best decoding hypotheses provide informative elements for true transcription prediction. This approach is a paradigm shift from the traditional language model rescoring strategy that can only select one candidate hypothesis as the output transcription. The proposed benchmark contains a novel dataset, HyPoradise (HP), encompassing more than 334,000 pairs of N-best hypotheses and corresponding accurate transcriptions across prevalent speech domains. Given this dataset, we examine three types of error correction techniques based on LLMs with varying amounts of labeled hypotheses-transcription pairs, which gains a significant word error rate (WER) reduction. Experimental evidence demonstrates the proposed technique achieves a breakthrough by surpassing the upper bound of traditional re-ranking based methods. More surprisingly, LLM with reasonable prompt and its generative capability can even correct those tokens that are missing in N-best list. We make our results publicly accessible for reproducible pipelines with released pre-trained models, thus providing a new evaluation paradigm for ASR error correction with LLMs.
Abstract（参考訳）: ディープニューラルネットワークの進歩により、自動音声認識(ASR)システムは、公開されているクリーンな音声データセットで人間のパリティを達成できるようになった。しかし、最先端のasrシステムでさえ、悪条件に直面すると性能が低下し、よく訓練された音響モデルは、例えば背景雑音のような音声領域の変化に敏感である。直感的には、人間は言語的知識に頼ることでこの問題に対処する: あいまいな言葉の意味は通常、文脈的手がかりから推測されるので、聴覚システムへの依存を減らす。この観察に触発されて我々は、asr誤り訂正に外部大言語モデル(llm)を利用する最初のオープンソースベンチマークを紹介し、n-bestデコード仮説が真の転写予測に有用な要素を提供する。このアプローチは、1つの仮説のみを出力転写として選択できる従来の言語モデル再構成戦略からパラダイムシフトである。提案するベンチマークには,334,000組以上のN-best仮説とそれに対応する音声領域の正確な転写を含む新しいデータセットHyPoradise (HP)が含まれている。本データセットを用いて,ラベル付き仮説-書き起こしペアを多量に有するLLMに基づく3種類の誤り訂正手法について検討し,単語誤り率(WER)を大幅に低減する。実験的な証拠は,提案手法が従来の再ランク付け手法の上限を超えることによって,ブレークスルーを達成することを示している。さらに驚くべきことに、適切なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。そこで本研究では,LLM を用いた ASR 誤り訂正のための新たな評価パラダイムを提供する。

関連論文リスト

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。 DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文参考訳（メタデータ） (2025-09-24T17:08:12Z)
LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context [4.444835399672951]
稀な単語を対象とし,音声情報を組み込んだ新しいGER手法を提案する。実験結果から,本手法は稀な単語の訂正を改善するだけでなく,WERとCERを低減させることがわかった。
論文参考訳（メタデータ） (2025-05-23T02:54:52Z)
Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-10-24T01:58:11Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
Generative error correction for code-switching speech recognition using large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文参考訳（メタデータ） (2023-10-17T14:49:48Z)
Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文参考訳（メタデータ） (2023-10-10T09:04:33Z)
Integrated Semantic and Phonetic Post-correction for Chinese Speech Recognition [1.2914521751805657]
提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
論文参考訳（メタデータ） (2021-11-16T11:55:27Z)
Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文参考訳（メタデータ） (2021-11-11T16:57:53Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。