論文の概要: Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2008.05750v1
- Date: Thu, 13 Aug 2020 08:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:38:52.237644
- Title: Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition
- Title(参考訳): Conv-Transformer Transducer:低レイテンシ、低フレームレート、ストリーミングエンドツーエンド音声認識
- Authors: Wenyong Huang, Wenchao Hu, Yu Ting Yeung, Xiao Chen
- Abstract要約: Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
- 参考スコア(独自算出の注目度): 8.046120977786702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has achieved competitive performance against state-of-the-art
end-to-end models in automatic speech recognition (ASR), and requires
significantly less training time than RNN-based models. The original
Transformer, with encoder-decoder architecture, is only suitable for offline
ASR. It relies on an attention mechanism to learn alignments, and encodes input
audio bidirectionally. The high computation cost of Transformer decoding also
limits its use in production streaming systems. To make Transformer suitable
for streaming ASR, we explore Transducer framework as a streamable way to learn
alignments. For audio encoding, we apply unidirectional Transformer with
interleaved convolution layers. The interleaved convolution layers are used for
modeling future context which is important to performance. To reduce
computation cost, we gradually downsample acoustic input, also with the
interleaved convolution layers. Moreover, we limit the length of history
context in self-attention to maintain constant computation cost for each
decoding step. We show that this architecture, named Conv-Transformer
Transducer, achieves competitive performance on LibriSpeech dataset (3.6\% WER
on test-clean) without external language models. The performance is comparable
to previously published streamable Transformer Transducer and strong hybrid
streaming ASR systems, and is achieved with smaller look-ahead window (140~ms),
fewer parameters and lower frame rate.
- Abstract(参考訳): Transformerは、自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成しており、RNNベースのモデルよりもトレーニング時間が大幅に短い。
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
これはアライメントを学ぶための注意機構に依存し、入力オーディオを双方向にエンコードする。
Transformerデコーディングの高計算コストは、本番ストリーミングシステムでの使用を制限する。
ストリーミングASRに適したTransformerを実現するために,Transducerフレームワークをストリーム化してアライメントの学習を行う。
オーディオエンコーディングでは,相互畳み込み層を有する一方向変圧器を適用する。
インターリーブ畳み込み層は、パフォーマンスにとって重要な将来のコンテキストのモデリングに使用される。
計算コストを削減すべく,畳み込み畳み込み層とともに音響入力を徐々にサンプリングする。
さらに,各復号ステップの計算コストを一定に抑えるために,自己アテンションにおける履歴コンテキストの長さを制限する。
このアーキテクチャはconv-transformer transducerと呼ばれ、外部言語モデルなしでlibrispeechデータセット (3.6\% wer on test-clean)で競合性能を達成する。
この性能は、以前に公開されたストリーム可能なTransformer Transducerと強力なハイブリッドストリーミングASRシステムに匹敵するものであり、ルックアヘッドウィンドウ(140~ms)が小さく、パラメータが少なく、フレームレートも低い。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Developing Real-time Streaming Transformer Transducer for Speech
Recognition on Large-scale Dataset [37.619200507404145]
Transformer Transducer (T-T) モデルは、大規模なデータセット上で、低レイテンシで高速な高速なフィストパスデコーディングのためのモデルである。
我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。
ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T03:01:21Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。