論文の概要: Developing Real-time Streaming Transformer Transducer for Speech
Recognition on Large-scale Dataset
- arxiv url: http://arxiv.org/abs/2010.11395v3
- Date: Sun, 28 Feb 2021 08:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:06:55.714875
- Title: Developing Real-time Streaming Transformer Transducer for Speech
Recognition on Large-scale Dataset
- Title(参考訳): 大規模データセットを用いた音声認識用リアルタイムストリーミングトランストランスデューサの開発
- Authors: Xie Chen, Yu Wu, Zhenghao Wang, Shujie Liu, Jinyu Li
- Abstract要約: Transformer Transducer (T-T) モデルは、大規模なデータセット上で、低レイテンシで高速な高速なフィストパスデコーディングのためのモデルである。
我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。
ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 37.619200507404145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer based end-to-end models have achieved great success in
many areas including speech recognition. However, compared to LSTM models, the
heavy computational cost of the Transformer during inference is a key issue to
prevent their applications. In this work, we explored the potential of
Transformer Transducer (T-T) models for the fist pass decoding with low latency
and fast speed on a large-scale dataset. We combine the idea of Transformer-XL
and chunk-wise streaming processing to design a streamable Transformer
Transducer model. We demonstrate that T-T outperforms the hybrid model, RNN
Transducer (RNN-T), and streamable Transformer attention-based encoder-decoder
model in the streaming scenario. Furthermore, the runtime cost and latency can
be optimized with a relatively small look-ahead.
- Abstract(参考訳): 近年,トランスフォーマーを用いたエンドツーエンドモデルは音声認識を含む多くの分野で大きな成功を収めている。
しかし、LSTMモデルと比較して、推論中のTransformerの計算コストは、その適用を防ぐための重要な問題である。
本研究では,高速かつ低レイテンシで高速なFistパスデコーディングを実現するTransformer Transducer (T-T) モデルの可能性を検討した。
我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。
ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。
さらに、ランタイムのコストとレイテンシは、比較的小さなルックアヘッドで最適化できる。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - TransAxx: Efficient Transformers with Approximate Computing [4.347898144642257]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。
本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。
提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文 参考訳(メタデータ) (2024-02-12T10:16:05Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Exploring Transformers for Large-Scale Speech Recognition [34.645597506707055]
変換器は,オフライン方式のBLSTMベースラインと比較して,約6%の単語誤り率(WER)削減を実現可能であることを示す。
ストリーミング方式では、Transformer-XLは800ミリ秒のレイテンシ制約を持つLC-BLSTMに匹敵する。
論文 参考訳(メタデータ) (2020-05-19T18:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。