論文の概要: FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2105.03842v1
- Date: Sun, 9 May 2021 05:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:12:29.797247
- Title: FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition
- Title(参考訳): FastCorrect: 自動音声認識のための編集アライメントによる誤り訂正
- Authors: Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu,
Tao Qin, Xiang-Yang Li, Ed Lin, Tie-Yan Liu
- Abstract要約: 編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
- 参考スコア(独自算出の注目度): 90.34177266618143
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Error correction techniques have been used to refine the output sentences
from automatic speech recognition (ASR) models and achieve a lower word error
rate (WER) than original ASR outputs. Previous works usually use a
sequence-to-sequence model to correct an ASR output sentence autoregressively,
which causes large latency and cannot be deployed in online ASR services. A
straightforward solution to reduce latency, inspired by non-autoregressive
(NAR) neural machine translation, is to use an NAR sequence generation model
for ASR error correction, which, however, comes at the cost of significantly
increased ASR error rate. In this paper, observing distinctive error patterns
and correction operations (i.e., insertion, deletion, and substitution) in ASR,
we propose FastCorrect, a novel NAR error correction model based on edit
alignment. In training, FastCorrect aligns each source token from an ASR output
sentence to the target tokens from the corresponding ground-truth sentence
based on the edit distance between the source and target sentences, and
extracts the number of target tokens corresponding to each source token during
edition/correction, which is then used to train a length predictor and to
adjust the source tokens to match the length of the target sentence for
parallel generation. In inference, the token number predicted by the length
predictor is used to adjust the source tokens for target sequence generation.
Experiments on the public AISHELL-1 dataset and an internal industrial-scale
ASR dataset show the effectiveness of FastCorrect for ASR error correction: 1)
it speeds up the inference by 6-9 times and maintains the accuracy (8-14% WER
reduction) compared with the autoregressive correction model; and 2) it
outperforms the accuracy of popular NAR models adopted in neural machine
translation by a large margin.
- Abstract(参考訳): 誤り訂正技術は、自動音声認識(ASR)モデルから出力文を洗練させ、元のASR出力よりも低い単語誤り率(WER)を達成するために用いられている。
従来の著作では、asr出力文を自己回帰的に修正するシーケンシャル・ツー・シーケンス・モデルを使用しており、これは大きなレイテンシを引き起こし、オンラインasrサービスではデプロイできない。
非自己回帰型(nar)ニューラルマシン翻訳にインスパイアされたレイテンシを削減するための簡単な解決策は、asrエラー訂正にnarシーケンス生成モデルを使用することだが、asrエラー率を大幅に増加させるコストがかかる。
本稿では,ASRにおける独特の誤りパターンと修正操作(挿入,削除,置換)を観察し,編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
トレーニングにおいて、FastCorrectは、ソースとターゲット文間の編集距離に基づいて、ASR出力文から各ソーストークンを対応する接頭辞からターゲットトークンに調整し、エディション/修正時に各ソーストークンに対応するターゲットトークン数を抽出し、長さ予測器をトレーニングし、ソーストークンを調整して、ターゲット文の長さを並列生成する。
推論において、長さ予測器によって予測されるトークン番号は、ターゲットシーケンス生成のソーストークンを調整するために使用される。
一般のAISHELL-1データセットと産業規模のASRデータセットを用いた実験では,ASR誤り訂正のためのFastCorrectの有効性が示された。1) 推論を6~9倍に高速化し,自己回帰補正モデルと比較して精度(8~14% WER削減)を維持し,2) ニューラルネットワーク翻訳で採用される一般的なNARモデルの精度を大きなマージンで上回る。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - Can Generative Large Language Models Perform ASR Error Correction? [16.246481696611117]
生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-09T13:38:25Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - ASR Error Correction with Constrained Decoding on Operation Prediction [8.701142327932484]
本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2022-08-09T09:59:30Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。