論文の概要: SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2212.01039v2
- Date: Wed, 20 Dec 2023 15:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:39:10.177676
- Title: SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition
- Title(参考訳): ソフトコレクト:ソフト検出による音声認識のための誤り補正
- Authors: Yichong Leng, Xu Tan, Wenjie Liu, Kaitao Song, Rui Wang, Xiang-Yang
Li, Tao Qin, Edward Lin, Tie-Yan Liu
- Abstract要約: 我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
- 参考スコア(独自算出の注目度): 116.31926128970585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Error correction in automatic speech recognition (ASR) aims to correct those
incorrect words in sentences generated by ASR models. Since recent ASR models
usually have low word error rate (WER), to avoid affecting originally correct
tokens, error correction models should only modify incorrect words, and
therefore detecting incorrect words is important for error correction. Previous
works on error correction either implicitly detect error words through
target-source attention or CTC (connectionist temporal classification) loss, or
explicitly locate specific deletion/substitution/insertion errors. However,
implicit error detection does not provide clear signal about which tokens are
incorrect and explicit error detection suffers from low detection accuracy. In
this paper, we propose SoftCorrect with a soft error detection mechanism to
avoid the limitations of both explicit and implicit error detection.
Specifically, we first detect whether a token is correct or not through a
probability produced by a dedicatedly designed language model, and then design
a constrained CTC loss that only duplicates the detected incorrect tokens to
let the decoder focus on the correction of error tokens. Compared with implicit
error detection with CTC loss, SoftCorrect provides explicit signal about which
words are incorrect and thus does not need to duplicate every token but only
incorrect tokens; compared with explicit error detection, SoftCorrect does not
detect specific deletion/substitution/insertion errors but just leaves it to
CTC loss. Experiments on AISHELL-1 and Aidatatang datasets show that
SoftCorrect achieves 26.1% and 9.4% CER reduction respectively, outperforming
previous works by a large margin, while still enjoying fast speed of parallel
generation.
- Abstract(参考訳): 自動音声認識(ASR)における誤り訂正は,ASRモデルにより生成された文中の誤り語を訂正することを目的としている。
最近のASRモデルは、通常、単語誤り率(WER)が低いため、本来正しいトークンに影響を与えるのを避けるため、誤り訂正モデルは不正な単語を修正するだけでよい。
前回のエラー訂正では、ターゲットソースの注意を通して暗黙的にエラーワードを検出するか、ctc(connectionist temporal classification)の損失を検出するか、特定の削除/置換/停止エラーを明示的に特定する。
しかし、暗黙的エラー検出は、どのトークンが誤りであるかを明確に示さず、明示的なエラー検出は、検出精度の低下に苦しむ。
本稿では,明示的および暗黙的エラー検出の限界を回避するため,ソフトエラー検出機構を用いたソフト補正を提案する。
具体的には、専用言語モデルによって生成された確率でトークンが正しいか否かを最初に検出し、検出された不正トークンのみを複製してデコーダがエラートークンの修正に集中させる制約付きCTC損失を設計する。
暗黙的なエラー検出とCTC損失と比較すると、SoftCorrectは、どの単語が誤りであるかを明示的な信号を提供するため、すべてのトークンを複製する必要はなく、不正なトークンのみを複製する必要はない。
aishell-1とaidatatangデータセットの実験では、softcorrectがそれぞれ26.1%と9.4%のcer削減を達成し、従来よりも大きなマージンを誇りながら、並列生成の高速さを享受している。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction [38.463639262607174]
以前の誤り訂正法は、典型的にはソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
我々は,この目標を達成するために,シンプルだが効果的なマスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:05:48Z) - ASR Error Correction with Constrained Decoding on Operation Prediction [8.701142327932484]
本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2022-08-09T09:59:30Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。