論文の概要: DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2403.17645v1
- Date: Tue, 26 Mar 2024 12:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:27:36.608927
- Title: DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition
- Title(参考訳): DANCER: 自動音声認識のためのエンティティ記述拡張エンティティコレクタ
- Authors: Yi-Cheng Wang, Hsin-Wei Wang, Bi-Cheng Yan, Chi-Han Lin, Berlin Chen,
- Abstract要約: 本稿では、自動音声認識(E2E ASR)における音声の混同を軽減するために、CorrEctoR(dubed DANCER)について述べる。
DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。
DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
- 参考スコア(独自算出の注目度): 10.844822448167935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (E2E ASR) systems often suffer from mistranscription of domain-specific phrases, such as named entities, sometimes leading to catastrophic failures in downstream tasks. A family of fast and lightweight named entity correction (NEC) models for ASR have recently been proposed, which normally build on phonetic-level edit distance algorithms and have shown impressive NEC performance. However, as the named entity (NE) list grows, the problems of phonetic confusion in the NE list are exacerbated; for example, homophone ambiguities increase substantially. In view of this, we proposed a novel Description Augmented Named entity CorrEctoR (dubbed DANCER), which leverages entity descriptions to provide additional information to facilitate mitigation of phonetic confusion for NEC on ASR transcription. To this end, an efficient entity description augmented masked language model (EDA-MLM) comprised of a dense retrieval model is introduced, enabling MLM to adapt swiftly to domain-specific entities for the NEC task. A series of experiments conducted on the AISHELL-1 and Homophone datasets confirm the effectiveness of our modeling approach. DANCER outperforms a strong baseline, the phonetic edit-distance-based NEC model (PED-NEC), by a character error rate (CER) reduction of about 7% relatively on AISHELL-1 for named entities. More notably, when tested on Homophone that contain named entities of high phonetic confusion, DANCER offers a more pronounced CER reduction of 46% relatively over PED-NEC for named entities.
- Abstract(参考訳): エンドツーエンドの自動音声認識(E2E ASR)システムは、名前付きエンティティのようなドメイン固有のフレーズの誤転写に悩まされることが多く、ダウンストリームタスクにおいて破滅的な失敗を引き起こすことがある。
ASRのための高速で軽量なエンティティ修正(NEC)モデルが最近提案されている。
しかし、名前付きエンティティ(NE)リストが大きくなるにつれて、NEリストにおける音声的混乱の問題は悪化し、例えば、ホモフォンの曖昧さは大幅に増大する。
そこで我々は、エンティティ記述を活用して、ASR転写におけるNECの音声的混乱を緩和するための追加情報を提供する、Description Augmented Named entity CorrEctoR(dubed DANCER)を提案する。
この目的のために、高密度検索モデルからなる効率的なエンティティ記述拡張マスク言語モデル(EDA-MLM)を導入し、NECタスクのドメイン固有のエンティティに迅速に適応できるようにする。
AISHELL-1とHomophoneデータセットを用いて一連の実験を行い、モデリング手法の有効性を確認した。
DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。
DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer [50.572974726351504]
クラスベースのLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。
C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。
実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-09-14T12:14:49Z) - ACLM: A Selective-Denoising based Generative Data Augmentation Approach
for Low-Resource Complex NER [47.32935969127478]
本稿では、条件付き言語モデルファインチューニングのためのACLM注意マップ対応キーワード選択について述べる。
ACLMは、既存のNERデータ拡張技術が抱える問題であるコンテキストエンティリティミスマッチ問題を緩和する。
本稿では,ACLMがモノリンガル,クロスリンガル,多言語複合NERに対して質的かつ定量的に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:33:04Z) - Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation [0.742779257315787]
本稿では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は従来のE2E-ASRモデルと比較して平均35.7%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T02:10:13Z) - A Discriminative Entity-Aware Language Model for Virtual Assistants [4.2854663014000876]
仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。
本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。
我々は、従来の差別的なn-gram言語モデリングアプローチを拡張し、知識グラフから現実世界の知識を取り入れた。
論文 参考訳(メタデータ) (2021-06-21T17:50:28Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。