論文の概要: Streaming automatic speech recognition with the transformer model
- arxiv url: http://arxiv.org/abs/2001.02674v5
- Date: Tue, 30 Jun 2020 18:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 09:31:09.493759
- Title: Streaming automatic speech recognition with the transformer model
- Title(参考訳): トランスフォーマーモデルを用いたストリーミング自動音声認識
- Authors: Niko Moritz, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
- 参考スコア(独自算出の注目度): 59.58318952000571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-decoder based sequence-to-sequence models have demonstrated
state-of-the-art results in end-to-end automatic speech recognition (ASR).
Recently, the transformer architecture, which uses self-attention to model
temporal context information, has been shown to achieve significantly lower
word error rates (WERs) compared to recurrent neural network (RNN) based system
architectures. Despite its success, the practical usage is limited to offline
ASR tasks, since encoder-decoder architectures typically require an entire
speech utterance as input. In this work, we propose a transformer based
end-to-end ASR system for streaming ASR, where an output must be generated
shortly after each spoken word. To achieve this, we apply time-restricted
self-attention for the encoder and triggered attention for the encoder-decoder
attention mechanism. Our proposed streaming transformer architecture achieves
2.8% and 7.2% WER for the "clean" and "other" test data of LibriSpeech, which
to our knowledge is the best published streaming end-to-end ASR result for this
task.
- Abstract(参考訳): エンコーダデコーダに基づくシーケンスツーシーケンスモデルは、エンドツーエンド自動音声認識(asr)において最先端の結果を示している。
近年,時間的文脈情報を自己アテンションでモデル化するトランスフォーマーアーキテクチャは,リカレントニューラルネットワーク(RNN)ベースのシステムアーキテクチャに比べて単語誤り率(WER)が著しく低いことが示されている。
エンコーダ-デコーダアーキテクチャは通常、入力として完全な音声発話を必要とするため、実際の使用はオフラインのasrタスクに限られる。
本研究では,ASRをストリーミングするトランスフォーマーに基づくエンドツーエンドのASRシステムを提案する。
これを実現するために、エンコーダに時間制限付き自己アテンションを適用し、エンコーダ・デコーダのアテンション機構に注意を向ける。
提案するストリーミングトランスフォーマーアーキテクチャは,librispeechの"クリーン"および"その他の"テストデータに対して2.8%と7.2%のwerを達成している。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。