論文の概要: Error Correction in ASR using Sequence-to-Sequence Models
- arxiv url: http://arxiv.org/abs/2202.01157v1
- Date: Wed, 2 Feb 2022 17:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:50:57.160497
- Title: Error Correction in ASR using Sequence-to-Sequence Models
- Title(参考訳): シーケンス・ツー・シーケンスモデルを用いたASRの誤り訂正
- Authors: Samrat Dutta, Shreyansh Jain, Ayush Maheshwari, Ganesh Ramakrishnan,
Preethi Jyothi
- Abstract要約: 自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
- 参考スコア(独自算出の注目度): 32.41875780785648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-editing in Automatic Speech Recognition (ASR) entails automatically
correcting common and systematic errors produced by the ASR system. The outputs
of an ASR system are largely prone to phonetic and spelling errors. In this
paper, we propose to use a powerful pre-trained sequence-to-sequence model,
BART, further adaptively trained to serve as a denoising model, to correct
errors of such types. The adaptive training is performed on an augmented
dataset obtained by synthetically inducing errors as well as by incorporating
actual errors from an existing ASR system. We also propose a simple approach to
rescore the outputs using word level alignments. Experimental results on
accented speech data demonstrate that our strategy effectively rectifies a
significant number of ASR errors and produces improved WER results when
compared against a competitive baseline.
- Abstract(参考訳): 自動音声認識(ASR)における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する。
ASRシステムの出力は音声や綴りの誤りがほとんどである。
そこで本稿では,より適応的に訓練された適応型列列列列列モデルBARTを用いて,そのようなタイプの誤りを訂正する手法を提案する。
既存のasrシステムから実際のエラーを取り込んで、合成的にエラーを誘発した拡張データセット上で適応トレーニングを行う。
また,単語レベルアライメントを用いた出力の再調整手法を提案する。
アクセント付き音声データを用いた実験結果から,ASRの誤りを効果的に修正し,競争基準と比較した場合に改善されたWER結果が得られた。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Can Generative Large Language Models Perform ASR Error Correction? [16.246481696611117]
生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-09T13:38:25Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。