論文の概要: An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR
- arxiv url: http://arxiv.org/abs/2110.10402v1
- Date: Wed, 20 Oct 2021 06:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:44:20.044572
- Title: An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR
- Title(参考訳): Triggered Attention-based Streaming ASRにおけるCTCモデルの強化に関する検討
- Authors: Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi
- Abstract要約: Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
- 参考スコア(独自算出の注目度): 19.668440671541546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, an attempt is made to combine Mask-CTC and the
triggered attention mechanism to construct a streaming end-to-end automatic
speech recognition (ASR) system that provides high performance with low
latency. The triggered attention mechanism, which performs autoregressive
decoding triggered by the CTC spike, has shown to be effective in streaming
ASR. However, in order to maintain high accuracy of alignment estimation based
on CTC outputs, which is the key to its performance, it is inevitable that
decoding should be performed with some future information input (i.e., with
higher latency). It should be noted that in streaming ASR, it is desirable to
be able to achieve high recognition accuracy while keeping the latency low.
Therefore, the present study aims to achieve highly accurate streaming ASR with
low latency by introducing Mask-CTC, which is capable of learning feature
representations that anticipate future information (i.e., that can consider
long-term contexts), to the encoder pre-training. Experimental comparisons
conducted using WSJ data demonstrate that the proposed method achieves higher
accuracy with lower latency than the conventional triggered attention-based
streaming ASR system.
- Abstract(参考訳): 本稿では,マスクctcとトリガーアテンション機構を組み合わせて,低レイテンシで高性能なasr(streaming end-to-end automatic speech recognition)システムを構築する試みを行う。
CTCスパイクによって引き起こされる自己回帰復号を行う誘導アテンション機構は、ASRのストリーミングに有効であることが示されている。
しかし、その性能の鍵となるctc出力に基づくアライメント推定の高精度性を維持するためには、将来的な情報入力(すなわち、高いレイテンシで)でデコードを行うことは避けられない。
ストリーミングASRでは、レイテンシを低く保ちながら高い認識精度を達成することが望ましい点に注意が必要だ。
そこで本研究では,将来情報(すなわち,長期的文脈を考慮できる)をエンコーダ事前学習に期待する特徴表現を学習できるマスクctcを導入することで,低レイテンシで高精度なストリーミングasrを実現することを目的としている。
WSJデータを用いて行った実験結果から,提案手法は従来のトリガアテンションベースストリーミングASRシステムよりも低レイテンシで高い精度を実現することが示された。
関連論文リスト
- Mamba for Streaming ASR Combined with Unimodal Aggregation [7.6112706449833505]
最近提案された状態空間モデルであるMambaは、様々なタスクでTransformerにマッチまたは超える能力を示した。
本稿では,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。
2つの中国語データセットを用いて実験を行い、提案モデルが競争力のあるASR性能を達成することを示した。
論文 参考訳(メタデータ) (2024-09-30T12:11:49Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording [46.69852287267763]
本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索復号法を提案する。
また、確率を利用してモデル状態のリセットに適したタイミングを決定するVADフリー推論アルゴリズムを提案する。
実験により,ブロック同期復号法はラベル同期復号法と同等の精度が得られることが示された。
論文 参考訳(メタデータ) (2021-07-15T17:59:10Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。