論文の概要: ASR Error Correction with Constrained Decoding on Operation Prediction
- arxiv url: http://arxiv.org/abs/2208.04641v1
- Date: Tue, 9 Aug 2022 09:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:52:10.821096
- Title: ASR Error Correction with Constrained Decoding on Operation Prediction
- Title(参考訳): 動作予測に制約付き復号を用いたasr誤り訂正
- Authors: Jingyuan Yang, Rongjun Li, Wei Peng
- Abstract要約: 本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
- 参考スコア(独自算出の注目度): 8.701142327932484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error correction techniques remain effective to refine outputs from automatic
speech recognition (ASR) models. Existing end-to-end error correction methods
based on an encoder-decoder architecture process all tokens in the decoding
phase, creating undesirable latency. In this paper, we propose an ASR error
correction method utilizing the predictions of correction operations. More
specifically, we construct a predictor between the encoder and the decoder to
learn if a token should be kept ("K"), deleted ("D"), or changed ("C") to
restrict decoding to only part of the input sequence embeddings (the "C"
tokens) for fast inference. Experiments on three public datasets demonstrate
the effectiveness of the proposed approach in reducing the latency of the
decoding process in ASR correction. It enhances the inference speed by at least
three times (3.4 and 5.7 times) while maintaining the same level of accuracy
(with WER reductions of 0.53% and 1.69% respectively) for our two proposed
models compared to a solid encoder-decoder baseline. In the meantime, we
produce and release a benchmark dataset contributing to the ASR error
correction community to foster research along this line.
- Abstract(参考訳): 誤り訂正技術は、自動音声認識(ASR)モデルから出力を洗練するのに有効である。
エンコーダ・デコーダアーキテクチャに基づく既存のエンドツーエンドエラー訂正手法は、デコードフェーズ内のすべてのトークンを処理し、望ましくないレイテンシを生成する。
本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
より具体的には、エンコーダとデコーダの間に予測器を構築し、トークンを保持すべきかどうか("K", deleted"D", changed"C")を学習し、高速な推論のために入力シーケンス埋め込み("C"トークン)の一部にデコードを制限する。
3つの公開データセットの実験は、ASR補正における復号プロセスの遅延を低減するための提案手法の有効性を示す。
提案した2つのモデルの精度(WERの0.53%と1.69%)を、固体エンコーダ-デコーダベースラインと比較しながら、少なくとも3倍(3.4倍と5.7倍)の推論速度を向上する。
その間、我々はASRエラー修正コミュニティに貢献するベンチマークデータセットを作成し、リリースし、この線に沿って研究を促進する。
関連論文リスト
- Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。