論文の概要: LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context
- arxiv url: http://arxiv.org/abs/2505.17410v1
- Date: Fri, 23 May 2025 02:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.778061
- Title: LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context
- Title(参考訳): LLMに基づく合成データと音韻文脈を用いた希少単語の生成誤差補正
- Authors: Natsuo Yamashita, Masaaki Yamamoto, Hiroaki Kokubo, Yohei Kawaguchi,
- Abstract要約: 稀な単語を対象とし,音声情報を組み込んだ新しいGER手法を提案する。
実験結果から,本手法は稀な単語の訂正を改善するだけでなく,WERとCERを低減させることがわかった。
- 参考スコア(独自算出の注目度): 4.444835399672951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative error correction (GER) with large language models (LLMs) has emerged as an effective post-processing approach to improve automatic speech recognition (ASR) performance. However, it often struggles with rare or domain-specific words due to limited training data. Furthermore, existing LLM-based GER approaches primarily rely on textual information, neglecting phonetic cues, which leads to over-correction. To address these issues, we propose a novel LLM-based GER approach that targets rare words and incorporates phonetic information. First, we generate synthetic data to contain rare words for fine-tuning the GER model. Second, we integrate ASR's N-best hypotheses along with phonetic context to mitigate over-correction. Experimental results show that our method not only improves the correction of rare words but also reduces the WER and CER across both English and Japanese datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた生成誤り訂正(GER)は,音声認識(ASR)の性能向上に有効な後処理手法として登場した。
しかし、訓練データに制限があるため、稀な単語やドメイン固有の単語に苦しむことが多い。
さらに、既存のLLMベースのGERアプローチは、主にテキスト情報に依存し、音声の手がかりを無視し、過度な補正につながる。
これらの問題に対処するために,レアワードを対象とし,音声情報を組み込んだ新しいLLMベースのGER手法を提案する。
まず、GERモデルを微調整するための稀な単語を含む合成データを生成する。
第二に、ASRのN-best仮説と音韻文脈を統合し、過剰補正を緩和する。
実験結果から,本手法は稀な単語の訂正を改善するだけでなく,英語と日本語のデータセット間でWERとCERを減少させることがわかった。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition [1.2914521751805657]
提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。
実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
論文 参考訳(メタデータ) (2021-11-16T11:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。