論文の概要: Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2203.00888v1
- Date: Wed, 2 Mar 2022 06:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:29:58.009822
- Title: Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems
- Title(参考訳): エンド・ツー・エンド音声認識システムのカスタマイズのための文脈的綴り補正
- Authors: Xiaoqiang Wang, Yanqing Liu, Jinyu Li, Veljko Miljanic, Sheng Zhao,
Hosam Khalil
- Abstract要約: そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
- 参考スコア(独自算出の注目度): 27.483603895258437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual biasing is an important and challenging task for end-to-end
automatic speech recognition (ASR) systems, which aims to achieve better
recognition performance by biasing the ASR system to particular context phrases
such as person names, music list, proper nouns, etc. Existing methods mainly
include contextual LM biasing and adding bias encoder into end-to-end ASR
models. In this work, we introduce a novel approach to do contextual biasing by
adding a contextual spelling correction model on top of the end-to-end ASR
system. We incorporate contextual information into a sequence-to-sequence
spelling correction model with a shared context encoder. Our proposed model
includes two different mechanisms: autoregressive (AR) and non-autoregressive
(NAR). We propose filtering algorithms to handle large-size context lists, and
performance balancing mechanisms to control the biasing degree of the model. We
demonstrate the proposed model is a general biasing solution which is
domain-insensitive and can be adopted in different scenarios. Experiments show
that the proposed method achieves as much as 51% relative word error rate (WER)
reduction over ASR system and outperforms traditional biasing methods. Compared
to the AR solution, the proposed NAR model reduces model size by 43.2% and
speeds up inference by 2.1 times.
- Abstract(参考訳): 文脈偏見は、個人名、音楽リスト、固有名詞などの特定の文脈句に偏見を付与することにより、音声認識性能の向上を目的とした、エンドツーエンド自動音声認識(ASR)システムにおいて重要かつ困難な課題である。
既存の方法は、主に文脈的LMバイアスと、エンドツーエンドのASRモデルにバイアスエンコーダを追加することである。
本研究では, エンド・ツー・エンドのASRシステム上にコンテキストスペル補正モデルを追加することにより, 文脈バイアスを行う新しい手法を提案する。
文脈情報を共有コンテキストエンコーダを用いたシーケンス-シーケンス間綴り補正モデルに組み込む。
提案モデルは,自己回帰(AR)と非自己回帰(NAR)の2つのメカニズムを含む。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
提案したモデルは、ドメイン非依存であり、異なるシナリオに適用できる一般的な偏見解であることを示す。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
ARソリューションと比較して、提案されたNARモデルはモデルサイズを43.2%削減し、推論を2.1倍高速化する。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction [0.9502148118198473]
単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。
PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T04:05:24Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。