論文の概要: Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2005.07903v1
- Date: Sat, 16 May 2020 08:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:41:27.369990
- Title: Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition
- Title(参考訳): エンドツーエンド音声認識のためのスパイクトリガー非自己回帰トランス
- Authors: Zhengkun Tian and Jiangyan Yi and Jianhua Tao and Ye Bai and Shuai
Zhang and Zhengqi Wen
- Abstract要約: エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
- 参考スコア(独自算出の注目度): 66.47000813920617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive transformer models have achieved extremely fast inference
speed and comparable performance with autoregressive sequence-to-sequence
models in neural machine translation. Most of the non-autoregressive
transformers decode the target sequence from a predefined-length mask sequence.
If the predefined length is too long, it will cause a lot of redundant
calculations. If the predefined length is shorter than the length of the target
sequence, it will hurt the performance of the model. To address this problem
and improve the inference speed, we propose a spike-triggered
non-autoregressive transformer model for end-to-end speech recognition, which
introduces a CTC module to predict the length of the target sequence and
accelerate the convergence. All the experiments are conducted on a public
Chinese mandarin dataset AISHELL-1. The results show that the proposed model
can accurately predict the length of the target sequence and achieve a
competitive performance with the advanced transformers. What's more, the model
even achieves a real-time factor of 0.0056, which exceeds all mainstream speech
recognition models.
- Abstract(参考訳): 非自己回帰トランスフォーマーモデルは、ニューラルネットワークの翻訳において、非常に高速な推論速度と、自己回帰シーケンス対シーケンスモデルと同等の性能を達成している。
非自己回帰トランスフォーマーのほとんどは、目標シーケンスを予め定義されたマスクシーケンスから復号する。
事前定義された長さが長すぎると、多くの冗長な計算が引き起こされる。
事前定義された長さがターゲットシーケンスの長さよりも短い場合、モデルの性能が損なわれる。
そこで本研究では,目的系列の長さを予測し,収束を加速するctcモジュールを導入する,エンドツーエンド音声認識のためのスパイクトリガー型非自己回帰トランスフォーマモデルを提案する。
実験はすべて、中国のマンダリンデータセットAISHELL-1上で行われた。
その結果,提案モデルでは,目標系列の長さを正確に予測でき,高性能トランスとの競合性能が得られることがわかった。
さらに、このモデルは0.0056のリアルタイム係数も達成しています。
関連論文リスト
- CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Pose Transformers (POTR): Human Motion Prediction with
Non-Autoregressive Transformers [24.36592204215444]
本研究では,トランスフォーマーアーキテクチャを非自己回帰型人間の動作予測に活用することを提案する。
我々のアプローチは、以前の予測を条件にするのではなく、クエリシーケンスから並列に要素をデコードする。
その単純さにもかかわらず、我々のアプローチは2つの公開データセットで競合する結果を達成している。
論文 参考訳(メタデータ) (2021-09-15T18:55:15Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。