論文の概要: Non-autoregressive Error Correction for CTC-based ASR with
Phone-conditioned Masked LM
- arxiv url: http://arxiv.org/abs/2209.04062v1
- Date: Thu, 8 Sep 2022 23:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:06:01.499014
- Title: Non-autoregressive Error Correction for CTC-based ASR with
Phone-conditioned Masked LM
- Title(参考訳): CTC-based ASR における非自己回帰誤差補正
- Authors: Hayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke
Sakai, Tatsuya Kawahara
- Abstract要約: そこで本稿では,PC-MLMによる誤り訂正手法を提案する。
CTCとPC-MLMはどちらも非自己回帰モデルであるため、高速なLM統合を可能にする。
- 参考スコア(独自算出の注目度): 39.03817586745041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connectionist temporal classification (CTC) -based models are attractive in
automatic speech recognition (ASR) because of their non-autoregressive nature.
To take advantage of text-only data, language model (LM) integration approaches
such as rescoring and shallow fusion have been widely used for CTC. However,
they lose CTC's non-autoregressive nature because of the need for beam search,
which slows down the inference speed. In this study, we propose an error
correction method with phone-conditioned masked LM (PC-MLM). In the proposed
method, less confident word tokens in a greedy decoded output from CTC are
masked. PC-MLM then predicts these masked word tokens given unmasked words and
phones supplementally predicted from CTC. We further extend it to Deletable
PC-MLM in order to address insertion errors. Since both CTC and PC-MLM are
non-autoregressive models, the method enables fast LM integration. Experimental
evaluations on the Corpus of Spontaneous Japanese (CSJ) and TED-LIUM2 in domain
adaptation setting shows that our proposed method outperformed rescoring and
shallow fusion in terms of inference speed, and also in terms of recognition
accuracy on CSJ.
- Abstract(参考訳): コネクショニスト時間分類(ctc)に基づくモデルは、自動音声認識(asr)において非自己回帰性のため魅力的である。
テキストのみのデータを活用するために、言語モデル (LM) の統合アプローチとして、リスコリングや浅い融合が広く使われている。
しかし、ビーム探索が必要なため、CTCの非自己回帰性は失われ、推論速度が低下する。
本研究では,電話コンディショニングマスクlm(pc-mlm)を用いた誤り訂正手法を提案する。
提案手法では,CTCから出力されるグリーディ復号された単語トークンをマスクする。
PC-MLMは、CTCから補足的に予測された不一致の単語と電話に与えられるこれらのマスク付きワードトークンを予測する。
さらに、挿入エラーに対処するため、Deletable PC-MLMに拡張する。
CTCとPC-MLMはどちらも非自己回帰モデルであるため、高速なLM統合を可能にする。
ドメイン適応設定における自発日本語コーパス(CSJ)とTED-Lium2(TED-Lium2)の実験的評価は,提案手法が推論速度およびCSJの認識精度において,再現性および浅部融合性に優れていたことを示している。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。