論文の概要: Transformer-based Online CTC/attention End-to-End Speech Recognition
Architecture
- arxiv url: http://arxiv.org/abs/2001.08290v2
- Date: Tue, 11 Feb 2020 08:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:30:23.453715
- Title: Transformer-based Online CTC/attention End-to-End Speech Recognition
Architecture
- Title(参考訳): Transformer を用いたオンライン CTC/attention End-to-End 音声認識アーキテクチャ
- Authors: Haoran Miao, Gaofeng Cheng, Changfeng Gao, Pengyuan Zhang and Yonghong
Yan
- Abstract要約: オンライン音声認識のためのTransformerベースのエンドツーエンド(E2E)モデルをデプロイすることは困難である。
本稿では, チャンク自己注意エンコーダ (chunk-SAE) とモノトニック・トランケート・アテンション・デコーダ (SAD) を含む Transformer ベースのオンライン CTC/アテンション E2E ASR アーキテクチャを提案する。
HKUST Mandarin ASRベンチマークで提案したオンラインモデルを評価し,23.66%の文字誤り率(CER)を320msのレイテンシで達成した。
- 参考スコア(独自算出の注目度): 29.62015311193754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer has gained success in automatic speech recognition
(ASR) field. However, it is challenging to deploy a Transformer-based
end-to-end (E2E) model for online speech recognition. In this paper, we propose
the Transformer-based online CTC/attention E2E ASR architecture, which contains
the chunk self-attention encoder (chunk-SAE) and the monotonic truncated
attention (MTA) based self-attention decoder (SAD). Firstly, the chunk-SAE
splits the speech into isolated chunks. To reduce the computational cost and
improve the performance, we propose the state reuse chunk-SAE. Sencondly, the
MTA based SAD truncates the speech features monotonically and performs
attention on the truncated features. To support the online recognition, we
integrate the state reuse chunk-SAE and the MTA based SAD into online
CTC/attention architecture. We evaluate the proposed online models on the HKUST
Mandarin ASR benchmark and achieve a 23.66% character error rate (CER) with a
320 ms latency. Our online model yields as little as 0.19% absolute CER
degradation compared with the offline baseline, and achieves significant
improvement over our prior work on Long Short-Term Memory (LSTM) based online
E2E models.
- Abstract(参考訳): 近年,Transformerは音声認識(ASR)分野で成功を収めている。
しかし、オンライン音声認識のためのTransformerベースのエンドツーエンド(E2E)モデルをデプロイすることは困難である。
本稿では,Transformer ベースのオンライン CTC/attention E2E ASR アーキテクチャを提案する。これは,チャンク自己注意エンコーダ (chunk-SAE) とモノトニック・トランケート・アテンション (MTA) ベースの自己注意デコーダ (SAD) を含む。
まず、チャンクSAEは、スピーチを孤立したチャンクに分割する。
計算コストを削減し,性能を向上させるために,状態再利用チャンクSAEを提案する。
センシティブなことに、MTAベースのSADは音声特徴を単調に切り刻み、切り刻まれた特徴に注意を向ける。
オンライン認識を支援するために、状態再利用チャンクSAEとMTAベースのSADをオンラインCTC/アテンションアーキテクチャに統合する。
HKUST Mandarin ASRベンチマークで提案したオンラインモデルを評価し,320msのレイテンシで23.66%の文字誤り率(CER)を達成した。
我々のオンラインモデルでは、オフラインベースラインと比較して0.19%の絶対CER劣化が得られ、Long Short-Term Memory(LSTM)ベースのオンラインE2Eモデルよりも大幅に改善されています。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。