論文の概要: Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR
- arxiv url: http://arxiv.org/abs/2203.15206v1
- Date: Tue, 29 Mar 2022 03:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:40:30.140061
- Title: Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR
- Title(参考訳): 変圧器を用いたエンドツーエンドストリーミングasr用シフトチャンクエンコーダ
- Authors: Fangyuan Wang and Bo Xu
- Abstract要約: E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。
我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。
実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
- 参考スコア(独自算出の注目度): 7.828989755009444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, there are mainly three Transformer encoder based streaming End to
End (E2E) Automatic Speech Recognition (ASR) approaches, namely time-restricted
methods, chunk-wise methods, and memory based methods. However, all of them
have some limitations in aspects of global context modeling, linear
computational complexity, and model parallelism. In this work, we aim to build
a single model to achieve the benefits of all the three aspects for streaming
E2E ASR. Particularly, we propose to use a shifted chunk mechanism instead of
the conventional chunk mechanism for streaming Transformer and Conformer. This
shifted chunk mechanism can significantly enhance modeling power through
allowing chunk self-attention to capture global context across local chunks,
while keeping linear computational complexity and parallel trainable. We name
the Shifted Chunk Transformer and Conformer as SChunk-Transofromer and
SChunk-Conformer, respectively. And we verify their performance on the widely
used AISHELL-1 benckmark. Experiments show that the SChunk-Transformer and
SChunk-Conformer achieve CER 6.43% and 5.77%, respectively. That surpasses the
existing chunk-wise and memory based methods by a large margin, and is
competitive even compared with the state-of-the-art time-restricted methods
which have quadratic computational complexity.
- Abstract(参考訳): 現在、主に3つのTransformer Encoderベースのストリーミング End to End (E2E) Automatic Speech Recognition (ASR)アプローチ、すなわち時間制限法、チャンクワイズ法、メモリベース手法がある。
しかし、これらはすべて、大域的文脈モデリング、線形計算複雑性、モデル並列性といった側面にいくつかの制限がある。
本研究では,E2E ASRをストリーミングする3つの側面の利点を享受するために,単一のモデルを構築することを目的とする。
特に,変換器と変換器をストリーミングする従来のチャンク機構の代わりに,シフトチャンク機構を提案する。
このシフトしたチャンク機構は、局所的なチャンクをまたいでグローバルなコンテキストを捉えながら、線形計算の複雑さと並列トレーニングを可能にすることで、モデリング能力を大幅に向上させることができる。
我々はShifted Chunk TransformerとConformerをそれぞれSChunk-TransofromerとSChunk-Conformerと命名した。
そして、広く使われているaishell-1 benckmarkでパフォーマンスを検証する。
実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
これは既存のチャンクワイドおよびメモリベースの手法を大きなマージンで上回り、2次計算複雑性を持つ最先端の時間制限手法と比較しても競争力がある。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution [10.896823447820232]
本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。
我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
論文 参考訳(メタデータ) (2022-11-21T13:04:37Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。