論文の概要: Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input
- arxiv url: http://arxiv.org/abs/2010.15025v2
- Date: Fri, 16 Apr 2021 03:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:05:44.949015
- Title: Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input
- Title(参考訳): CTCデコーダ入力を用いた非自己回帰変換器ASR
- Authors: Xingchen Song, Zhiyong Wu, Yiheng Huang, Chao Weng, Dan Su, Helen Meng
- Abstract要約: CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
- 参考スコア(独自算出の注目度): 54.82369261350497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive (NAR) transformer models have achieved significantly
inference speedup but at the cost of inferior accuracy compared to
autoregressive (AR) models in automatic speech recognition (ASR). Most of the
NAR transformers take a fixed-length sequence filled with MASK tokens or a
redundant sequence copied from encoder states as decoder input, they cannot
provide efficient target-side information thus leading to accuracy degradation.
To address this problem, we propose a CTC-enhanced NAR transformer, which
generates target sequence by refining predictions of the CTC module.
Experimental results show that our method outperforms all previous NAR
counterparts and achieves 50x faster decoding speed than a strong AR baseline
with only 0.0 ~ 0.3 absolute CER degradation on Aishell-1 and Aishell-2
datasets.
- Abstract(参考訳): 非自己回帰(NAR)トランスモデルは、自動音声認識(ASR)における自己回帰(AR)モデルに比べて精度が劣るが、推論速度が大幅に向上した。
NAR変換器の多くは、MASKトークンで満たされた固定長シーケンスや、エンコーダ状態からコピーされた冗長シーケンスをデコーダ入力としており、効率的なターゲット側情報を提供できないため、精度の低下につながる。
この問題に対処するため、CTCモジュールの予測を精査してターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,本手法は,aishell-1およびaishell-2データセットの絶対cer劣化が0.0~0.3で,強力なarベースラインよりも50倍高速に復号化できることがわかった。
関連論文リスト
- ASR Error Correction with Constrained Decoding on Operation Prediction [8.701142327932484]
本稿では,修正操作の予測を利用したASR誤り訂正手法を提案する。
3つの公開データセットの実験では、デコードプロセスの遅延を低減するための提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2022-08-09T09:59:30Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention [27.354159713970322]
我々はD2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはTransformerのバックボーンによって生成された細分化された特徴マップに直接出席する。
D2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
論文 参考訳(メタデータ) (2022-03-02T04:21:12Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2021-06-18T02:58:30Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。