論文の概要: Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2107.01269v1
- Date: Fri, 2 Jul 2021 20:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:41:08.607553
- Title: Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition
- Title(参考訳): エンドツーエンド音声認識のための二重因果・非因果自己認識
- Authors: Niko Moritz, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
- 参考スコア(独自算出の注目度): 58.69803243323346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based end-to-end automatic speech recognition (ASR) systems have
recently demonstrated state-of-the-art results for numerous tasks. However, the
application of self-attention and attention-based encoder-decoder models
remains challenging for streaming ASR, where each word must be recognized
shortly after it was spoken. In this work, we present the dual
causal/non-causal self-attention (DCN) architecture, which in contrast to
restricted self-attention prevents the overall context to grow beyond the
look-ahead of a single layer when used in a deep architecture. DCN is compared
to chunk-based and restricted self-attention using streaming transformer and
conformer architectures, showing improved ASR performance over restricted
self-attention and competitive ASR results compared to chunk-based
self-attention, while providing the advantage of frame-synchronous processing.
Combined with triggered attention, the proposed streaming end-to-end ASR
systems obtained state-of-the-art results on the LibriSpeech, HKUST, and
Switchboard ASR tasks.
- Abstract(参考訳): 注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、セルフアテンションと注意に基づくエンコーダ・デコーダモデルの適用は、各単語が話された直後に認識されなければならないストリーミングasrでは依然として困難である。
本稿では,dcn(d-causal self-attention)アーキテクチャについて述べる。このアーキテクチャは,制限された自己完結とは対照的に,ディープアーキテクチャで使用される場合の単一レイヤのルック・アヘッドを超えて,全体的なコンテキストが成長することを妨げている。
dcnは、ストリーミングトランスフォーマーとコンフォーメータアーキテクチャを用いたチャンクベースおよび制限付きセルフアテンションと比較され、チャンクベースの自己アテンションに比べて制限付き自己アテンションおよび競合型asr結果よりもasr性能が向上し、フレーム同期処理の利点を提供する。
提案されたストリーミング・ツー・エンドのASRシステムは、注意を喚起し、LibriSpeech、HKUST、Switchboard ASRタスクの最先端の結果を得た。
関連論文リスト
- SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。