論文の概要: TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2104.01522v1
- Date: Sun, 4 Apr 2021 02:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 08:11:46.924410
- Title: TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition
- Title(参考訳): tsnat:音声認識のための2段階非自己回帰トランスフォーマーモデル
- Authors: Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi
Wen, Xuefei Liu
- Abstract要約: 非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 69.68154370877615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The autoregressive (AR) models, such as attention-based encoder-decoder
models and RNN-Transducer, have achieved great success in speech recognition.
They predict the output sequence conditioned on the previous tokens and
acoustic encoded states, which is inefficient on GPUs. The non-autoregressive
(NAR) models can get rid of the temporal dependency between the output tokens
and predict the entire output tokens in at least one step. However, the NAR
model still faces two major problems. On the one hand, there is still a great
gap in performance between the NAR models and the advanced AR models. On the
other hand, it's difficult for most of the NAR models to train and converge. To
address these two problems, we propose a new model named the two-step
non-autoregressive transformer(TSNAT), which improves the performance and
accelerating the convergence of the NAR model by learning prior knowledge from
a parameters-sharing AR model. Furthermore, we introduce the two-stage method
into the inference process, which improves the model performance greatly. All
the experiments are conducted on a public Chinese mandarin dataset ASIEHLL-1.
The results show that the TSNAT can achieve a competitive performance with the
AR model and outperform many complicated NAR models.
- Abstract(参考訳): 注意に基づくエンコーダデコーダモデルやRNN-Transducerのような自己回帰型(AR)モデルは音声認識において大きな成功を収めている。
彼らは、前のトークンで条件付けられた出力シーケンスと、gpuでは非効率な音響エンコード状態を予測する。
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
しかし、NARモデルは依然として2つの大きな問題に直面している。
一方、NARモデルと高度なARモデルの間には、依然として大きなギャップがある。
一方、ほとんどのNARモデルでは、トレーニングと収束が難しいです。
これら2つの問題に対処するために,パラメータ共有ARモデルから事前知識を学習することにより,NARモデルの性能向上と収束を促進させる2段階非自己回帰変換器(TSNAT)という新しいモデルを提案する。
さらに,2段階の手法を推論プロセスに導入し,モデル性能を大幅に改善する。
実験はすべて、中国の公開マンダリンデータセットASIEHLL-1上で行われた。
その結果,TSNATはARモデルと競合する性能を達成でき,複雑なNARモデルよりも優れていた。
関連論文リスト
- Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。