論文の概要: Generative Annotation for ASR Named Entity Correction
- arxiv url: http://arxiv.org/abs/2508.20700v1
- Date: Thu, 28 Aug 2025 12:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.374844
- Title: Generative Annotation for ASR Named Entity Correction
- Title(参考訳): ASR名前付きエンティティ補正のための生成アノテーション
- Authors: Yuanchang Luo, Daimeng Wei, Shaojun Li, Hengchao Shang, Jiaxin Guo, Zongyao Li, Zhanglin Wu, Xiaoyu Chen, Zhiqiang Rao, Jinlong Yang, Hao Yang,
- Abstract要約: エンドツーエンドの自動音声認識システムは、ドメイン固有の名前のエンティティの書き起こしに失敗することが多い。
そこで本研究では,音声特徴を利用した新しいNEC手法を提案する。
我々はオープンソースのテストセットと自己構築テストセットを用いてテストを行う。
- 参考スコア(独自算出の注目度): 22.96005224780927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end automatic speech recognition systems often fail to transcribe domain-specific named entities, causing catastrophic failures in downstream tasks. Numerous fast and lightweight named entity correction (NEC) models have been proposed in recent years. These models, mainly leveraging phonetic-level edit distance algorithms, have shown impressive performances. However, when the forms of the wrongly-transcribed words(s) and the ground-truth entity are significantly different, these methods often fail to locate the wrongly transcribed words in hypothesis, thus limiting their usage. We propose a novel NEC method that utilizes speech sound features to retrieve candidate entities. With speech sound features and candidate entities, we inovatively design a generative method to annotate entity errors in ASR transcripts and replace the text with correct entities. This method is effective in scenarios of word form difference. We test our method using open-source and self-constructed test sets. The results demonstrate that our NEC method can bring significant improvement to entity accuracy. We will open source our self-constructed test set and training data.
- Abstract(参考訳): エンドツーエンドの自動音声認識システムは、ドメイン固有の名前のエンティティの書き起こしに失敗することが多く、下流タスクで破滅的な失敗を引き起こす。
近年,高速かつ軽量なエンティティ補正(NEC)モデルが提案されている。
これらのモデルは、主に音素レベルの編集距離アルゴリズムを利用しており、印象的な性能を示している。
しかし、誤った書き起こされた単語(s)の形式と根本的実体が著しく異なる場合、これらの手法は誤った書き起こされた単語を仮説で見つけるのに失敗し、それらの使用を制限する。
そこで本研究では,音声特徴を利用した新しいNEC手法を提案する。
音声特徴量と候補エンティティを用いて,ASR文字中のエンティティエラーをアノテートし,テキストを正しいエンティティに置き換える生成手法を無作為に設計する。
この方法は語形の違いのシナリオに有効である。
我々はオープンソースのテストセットと自己構築テストセットを用いてテストを行う。
これらの結果から,本手法はエンティティの精度を大幅に向上させる可能性が示唆された。
自己構築されたテストセットとトレーニングデータをオープンソースにします。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - "I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。
しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。
そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T07:43:18Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Unifying Global and Near-Context Biasing in a Single Trie Pass [11.277273712268897]
NEバイアスリストと単語レベルn-gram言語モデル(LM)の未探索組み合わせを提案する。
提案したキーワードバイアスとn-gram LMの組み合わせは,エンティティ認識を最大32%改善し,WER全体の最大12%削減することを示す。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。