Fugu-MT 論文翻訳(概要): ASR Error Correction with Constrained Decoding on Operation Prediction

論文の概要: ASR Error Correction with Constrained Decoding on Operation Prediction

arxiv url: http://arxiv.org/abs/2208.04641v1
Date: Tue, 9 Aug 2022 09:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-10 12:52:10.821096
Title: ASR Error Correction with Constrained Decoding on Operation Prediction
Title（参考訳）: 動作予測に制約付き復号を用いたasr誤り訂正
Authors: Jingyuan Yang, Rongjun Li, Wei Peng
Abstract要約: 本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。 3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
参考スコア（独自算出の注目度）: 8.701142327932484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Error correction techniques remain effective to refine outputs from automatic speech recognition (ASR) models. Existing end-to-end error correction methods based on an encoder-decoder architecture process all tokens in the decoding phase, creating undesirable latency. In this paper, we propose an ASR error correction method utilizing the predictions of correction operations. More specifically, we construct a predictor between the encoder and the decoder to learn if a token should be kept ("K"), deleted ("D"), or changed ("C") to restrict decoding to only part of the input sequence embeddings (the "C" tokens) for fast inference. Experiments on three public datasets demonstrate the effectiveness of the proposed approach in reducing the latency of the decoding process in ASR correction. It enhances the inference speed by at least three times (3.4 and 5.7 times) while maintaining the same level of accuracy (with WER reductions of 0.53% and 1.69% respectively) for our two proposed models compared to a solid encoder-decoder baseline. In the meantime, we produce and release a benchmark dataset contributing to the ASR error correction community to foster research along this line.
Abstract（参考訳）: 誤り訂正技術は、自動音声認識(ASR)モデルから出力を洗練するのに有効である。エンコーダ・デコーダアーキテクチャに基づく既存のエンドツーエンドエラー訂正手法は、デコードフェーズ内のすべてのトークンを処理し、望ましくないレイテンシを生成する。本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。より具体的には、エンコーダとデコーダの間に予測器を構築し、トークンを保持すべきかどうか("K", deleted"D", changed"C")を学習し、高速な推論のために入力シーケンス埋め込み("C"トークン)の一部にデコードを制限する。 3つの公開データセットの実験は、ASR補正における復号プロセスの遅延を低減するための提案手法の有効性を示す。提案した2つのモデルの精度(WERの0.53%と1.69%)を、固体エンコーダ-デコーダベースラインと比較しながら、少なくとも3倍(3.4倍と5.7倍)の推論速度を向上する。その間、我々はASRエラー修正コミュニティに貢献するベンチマークデータセットを作成し、リリースし、この線に沿って研究を促進する。

関連論文リスト

Fault-tolerant correction-ready encoding of the [[7,1,3]] Steane code on a 2D grid [0.0]
本研究では,2次元グリッド上のSteane符号のゼロ論理状態をフォールトトレラントに作成するための様々な補正可能な符号化手法について検討する。数個のFrag-Bridge量子ビットによるパリティチェック符号化は、誤り率を低くすることで、検証ベースの符号化よりも優れていることを示す。驚くべきことに、リソース集約型のSteaneエラー補正と比較して、この低オーバーヘッド法は、ノイズの多い設定で実用的に有利である。
論文参考訳（メタデータ） (2025-04-01T18:00:30Z)
Efficient Transformer-based Decoder for Varshamov-Tenengolts Codes [1.53119329713143]
主に単一エラー訂正のために設計されたVarshamov-Tenengolts (VT) コードは、研究の中心として浮上している。既存の復号法では1つの誤りを訂正する精度が高いが、複数のIDSエラーを修正できない場合が多い。本研究では,変換器をベースとしたVTデコーダを導入することにより,VT符号が複数のエラーに対処する能力を維持していることを示す。
論文参考訳（メタデータ） (2025-02-28T13:59:14Z)
Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文参考訳（メタデータ） (2024-06-11T09:52:33Z)
An Effective Mixture-Of-Experts Approach For Code-Switching Speech Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文参考訳（メタデータ） (2024-02-27T04:08:59Z)
SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。 AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文参考訳（メタデータ） (2022-12-02T09:11:32Z)
FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。 FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-09-29T13:48:03Z)
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。 fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文参考訳（メタデータ） (2021-05-09T05:35:36Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文参考訳（メタデータ） (2020-10-28T15:00:09Z)
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2020-08-06T08:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。