論文の概要: Non-autoregressive Transformer with Unified Bidirectional Decoder for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.06684v1
- Date: Tue, 14 Sep 2021 13:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:30:17.960810
- Title: Non-autoregressive Transformer with Unified Bidirectional Decoder for
Automatic Speech Recognition
- Title(参考訳): 音声認識用統一双方向デコーダを用いた非自己回帰変圧器
- Authors: Chuan-Fei Zhang, Yan Liu, Tian-Hao Zhang, Song-Lu Chen, Feng Chen,
Xu-Cheng Yin
- Abstract要約: 統一デコーダ(NAT-UBD)を用いた非自己回帰変換器を提案する。
NAT-UBDはAishell1の開発/テストセットで5.0%/5.5%の文字誤り率(CER)を達成でき、以前のNARトランスフォーマーモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 20.93536420298548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-autoregressive (NAR) transformer models have been studied intensively in
automatic speech recognition (ASR), and a substantial part of NAR transformer
models is to use the casual mask to limit token dependencies. However, the
casual mask is designed for the left-to-right decoding process of the
non-parallel autoregressive (AR) transformer, which is inappropriate for the
parallel NAR transformer since it ignores the right-to-left contexts. Some
models are proposed to utilize right-to-left contexts with an extra decoder,
but these methods increase the model complexity. To tackle the above problems,
we propose a new non-autoregressive transformer with a unified bidirectional
decoder (NAT-UBD), which can simultaneously utilize left-to-right and
right-to-left contexts. However, direct use of bidirectional contexts will
cause information leakage, which means the decoder output can be affected by
the character information from the input of the same position. To avoid
information leakage, we propose a novel attention mask and modify vanilla
queries, keys, and values matrices for NAT-UBD. Experimental results verify
that NAT-UBD can achieve character error rates (CERs) of 5.0%/5.5% on the
Aishell1 dev/test sets, outperforming all previous NAR transformer models.
Moreover, NAT-UBD can run 49.8x faster than the AR transformer baseline when
decoding in a single step.
- Abstract(参考訳): 非自己回帰(NAR)トランスフォーマーモデルは、自動音声認識(ASR)において集中的に研究されており、NARトランスフォーマーモデルのかなりの部分は、トークン依存を制限するためにカジュアルマスクを使用することである。
しかし、カジュアルマスクは非パラレル自己回帰(ar)変圧器の左右復号処理のために設計されており、これは左右の文脈を無視したパラレルナル変圧器には不適切である。
いくつかのモデルは、追加のデコーダで右から左のコンテキストを利用するように提案されているが、これらの方法はモデルの複雑さを増加させる。
上記の問題に対処するために,左から右へのコンテキストと右から左へのコンテキストを同時に利用できる統一双方向デコーダ (NAT-UBD) を備えた新しい非自己回帰変換器を提案する。
しかし、双方向コンテキストの直接使用は情報漏洩を引き起こすため、デコーダ出力は同じ位置の入力から文字情報に影響される可能性がある。
情報漏洩を避けるため,新しいアテンションマスクを提案し,NAT-UBDのバニラクエリ,キー,値行列を修正した。
実験の結果、NAT-UBDはAishell1の開発/テストセットで5.0%/5.5%の文字誤り率(CER)を達成でき、以前のすべてのNARトランスモデルより優れていた。
さらに、NAT-UBDは1ステップでデコードする場合、ARトランスフォーマーベースラインよりも49.8倍高速に動作することができる。
関連論文リスト
- Spike-driven Transformer [31.931401322707995]
スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では,4つの特性を持つスパイク駆動トランスフォーマーにより,スパイク駆動のパラダイムをTransformerに組み込む。
Spike駆動トランスフォーマーはImageNet-1K上で77.1%のTop-1精度を達成でき、これはSNNフィールドにおける最先端の結果である。
論文 参考訳(メタデータ) (2023-07-04T13:00:18Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Directed Acyclic Transformer for Non-Autoregressive Machine Translation [93.31114105366461]
Directed Acyclic Transfomer (DA-Transformer) は、DAG (Directed Acyclic Graph) の隠れ状態を表す。
DA-Transformerは、平均して約3 BLEUで以前のNATよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-05-16T06:02:29Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Transformer with Bidirectional Decoder for Speech Recognition [32.56014992915183]
異なる方向の文脈を同時に利用する双方向音声変換器を提案する。
具体的には、提案した変換器の出力には、左から右への目標と右から左への目標が含まれる。
推論段階では、左右の候補を生成でき、左右の候補を生成できる双方向ビームサーチ方式を用いる。
論文 参考訳(メタデータ) (2020-08-11T02:12:42Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。