論文の概要: PMF-CEC: Phoneme-augmented Multimodal Fusion for Context-aware ASR Error Correction with Error-specific Selective Decoding
- arxiv url: http://arxiv.org/abs/2506.11064v1
- Date: Sat, 31 May 2025 08:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.535347
- Title: PMF-CEC: Phoneme-augmented Multimodal Fusion for Context-aware ASR Error Correction with Error-specific Selective Decoding
- Title(参考訳): PMF-CEC: 文脈認識型ASR誤り訂正のための音素拡張マルチモーダルフュージョン
- Authors: Jiajun He, Tomoki Toda,
- Abstract要約: 文脈認識誤り訂正のための音素拡張多重モーダル融合法を提案する。
提案するPMF-CECは、適切な推論速度を維持しつつ、バイアス付き単語誤り率をさらに低減する。
我々の手法は他の文脈バイアス法よりも優れている。
- 参考スコア(独自算出の注目度): 27.245689792428557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) models often struggle to accurately recognize rare words. Previously, we introduced an ASR postprocessing method called error detection and context-aware error correction (ED-CEC), which leverages contextual information such as named entities and technical terms to improve the accuracy of ASR transcripts. Although ED-CEC achieves a notable success in correcting rare words, its accuracy remains low when dealing with rare words that have similar pronunciations but different spellings. To address this issue, we proposed a phoneme-augmented multimodal fusion method for context-aware error correction (PMF-CEC) method on the basis of ED-CEC, which allowed for better differentiation between target rare words and homophones. Additionally, we observed that the previous ASR error detection module suffers from overdetection. To mitigate this, we introduced a retention probability mechanism to filter out editing operations with confidence scores below a set threshold, preserving the original operation to improve error detection accuracy. Experiments conducted on five datasets demonstrated that our proposed PMF-CEC maintains reasonable inference speed while further reducing the biased word error rate compared with ED-CEC, showing a stronger advantage in correcting homophones. Moreover, our method outperforms other contextual biasing methods, and remains valuable compared with LLM-based methods in terms of faster inference and better robustness under large biasing lists.
- Abstract(参考訳): エンドツーエンドの自動音声認識(ASR)モデルは、しばしば稀な単語を正確に認識するのに苦労する。
これまで我々は、名前付きエンティティや技術用語などのコンテキスト情報を活用して、ASR転写の精度を向上させる、エラー検出と文脈認識誤り訂正(ED-CEC)というASR後処理手法を導入してきた。
ED-CECは稀な単語の訂正において顕著な成功を収めるが、類似の発音と異なる綴りを持つ稀な単語を扱う場合、その精度は低いままである。
この問題を解決するために,ED-CECに基づく文脈認識誤り訂正法 (PMF-CEC) のための音素拡張多重モーダル融合法を提案した。
さらに,前回のASRエラー検出モジュールが過剰検出に悩まされていることも確認した。
これを軽減するために,設定閾値未満の信頼スコアで編集操作をフィルタリングする保持確率機構を導入し,元の操作を保存して誤り検出精度を向上させる。
提案したPMF-CECは, ED-CECと比較して, 単語誤り率を抑えつつ, 適切な推論速度を維持していることを示した。
さらに,本手法は他の文脈バイアス法よりも優れており,大きなバイアスリストの下での高速な推論とより堅牢性の観点から,LLMベースの手法と比較しても有益である。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction [30.486396813844195]
本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
論文 参考訳(メタデータ) (2023-10-08T11:40:30Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Contextual Spelling Correction by External Acoustics Attention
and Semantic Aware Data Augmentation [31.408074817254732]
本稿では,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアスに対する非自己回帰スペル補正モデルを提案する。
音声情報に外部の注意を払い、テキスト仮説をCSCに組み込んで、目的語句と相違語句や無関係語句とをよりよく区別する。
実験により、改良された手法は、ベースラインのASR+Biasingシステムよりも20.3%の相対的な名前リコールゲインで優れていることが示された。
論文 参考訳(メタデータ) (2023-02-22T08:00:08Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。