論文の概要: FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.14420v2
- Date: Fri, 1 Oct 2021 06:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 11:24:25.823084
- Title: FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition
- Title(参考訳): fastcorrect 2: 自動音声認識のための複数候補の高速誤り訂正
- Authors: Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Linquan Liu, Tao
Qin, Xiang-Yang Li, Edward Lin, Tie-Yan Liu
- Abstract要約: 本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 92.12910821300034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Error correction is widely used in automatic speech recognition (ASR) to
post-process the generated sentence, and can further reduce the word error rate
(WER). Although multiple candidates are generated by an ASR system through beam
search, current error correction approaches can only correct one sentence at a
time, failing to leverage the voting effect from multiple candidates to better
detect and correct error tokens. In this work, we propose FastCorrect 2, an
error correction model that takes multiple ASR candidates as input for better
correction accuracy. FastCorrect 2 adopts non-autoregressive generation for
fast inference, which consists of an encoder that processes multiple source
sentences and a decoder that generates the target sentence in parallel from the
adjusted source sentence, where the adjustment is based on the predicted
duration of each source token. However, there are some issues when handling
multiple source sentences. First, it is non-trivial to leverage the voting
effect from multiple source sentences since they usually vary in length. Thus,
we propose a novel alignment algorithm to maximize the degree of token
alignment among multiple sentences in terms of token and pronunciation
similarity. Second, the decoder can only take one adjusted source sentence as
input, while there are multiple source sentences. Thus, we develop a candidate
predictor to detect the most suitable candidate for the decoder. Experiments on
our inhouse dataset and AISHELL-1 show that FastCorrect 2 can further reduce
the WER over the previous correction model with single candidate by 3.2% and
2.6%, demonstrating the effectiveness of leveraging multiple candidates in ASR
error correction. FastCorrect 2 achieves better performance than the cascaded
re-scoring and correction pipeline and can serve as a unified post-processing
module for ASR.
- Abstract(参考訳): 誤り訂正は自動音声認識(ASR)において、生成された文を後処理するために広く用いられ、さらに単語誤り率(WER)を低減することができる。
複数の候補はビームサーチによってASRシステムによって生成されるが、現在の誤り訂正手法は一度に1つの文だけを訂正することができ、複数の候補の投票効果を利用して誤りトークンを検知し修正することができない。
本研究では,複数のASR候補を入力として取り込んだ誤り訂正モデルであるFastCorrect 2を提案する。
FastCorrect2は、複数のソース文を処理するエンコーダと、各ソーストークンの予測期間に基づいて調整されたソース文から並列にターゲット文を生成するデコーダとからなる、高速推論のための非自己回帰生成を採用する。
しかし、複数のソース文を扱う場合、いくつかの問題がある。
第一に、しばしば長さが異なるため、複数の元文からの投票効果を利用するのは非自明である。
そこで本研究では,複数文間のトークンアライメントの程度をトークンと発音の類似性の観点から最大化する新しいアライメントアルゴリズムを提案する。
第二に、デコーダは1つの調整されたソース文のみを入力とし、複数のソース文が存在する。
そこで我々は,デコーダの最適候補を検出する候補予測器を開発した。
我々の社内データセットとAISHELL-1の実験により、FastCorrect 2は、単一の候補を持つ前の修正モデルよりもWERをさらに3.2%と2.6%削減できることを示した。
FastCorrect 2は、カスケードされた再描画および修正パイプラインよりも優れたパフォーマンスを実現し、ASRの統一後処理モジュールとして機能する。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - DiaCorrect: Error Correction Back-end For Speaker Diarization [9.311650017389262]
本稿では,ダイアリゼーションシステムの出力を改良するために,DiaCorrectという誤り訂正フレームワークを提案する。
我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。
論文 参考訳(メタデータ) (2023-09-15T13:08:12Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - ASR Error Correction with Constrained Decoding on Operation Prediction [8.701142327932484]
本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2022-08-09T09:59:30Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。