論文の概要: An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.09885v1
- Date: Fri, 18 Jun 2021 02:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:02:39.319575
- Title: An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition
- Title(参考訳): 自動音声認識のための改良型単段非自己回帰変圧器
- Authors: Ruchao Fan, Wei Chu, Peng Chang, Jing Xiao and Abeer Alwan
- Abstract要約: 非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
- 参考スコア(独自算出の注目度): 28.06475768075206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive mechanisms can significantly decrease inference time for
speech transformers, especially when the single step variant is applied.
Previous work on CTC alignment-based single step non-autoregressive transformer
(CASS-NAT) has shown a large real time factor (RTF) improvement over
autoregressive transformers (AT). In this work, we propose several methods to
improve the accuracy of the end-to-end CASS-NAT, followed by performance
analyses. First, convolution augmented self-attention blocks are applied to
both the encoder and decoder modules. Second, we propose to expand the trigger
mask (acoustic boundary) for each token to increase the robustness of CTC
alignments. In addition, iterated loss functions are used to enhance the
gradient update of low-layer parameters. Without using an external language
model, the WERs of the improved CASS-NAT, when using the three methods, are
3.1%/7.2% on Librispeech test clean/other sets and the CER is 5.4% on the
Aishell1 test set, achieving a 7%~21% relative WER/CER improvement. For the
analyses, we plot attention weight distributions in the decoders to visualize
the relationships between token-level acoustic embeddings. When the acoustic
embeddings are visualized, we find that they have a similar behavior to word
embeddings, which explains why the improved CASS-NAT performs similarly to AT.
- Abstract(参考訳): 非自己回帰機構は、特に1ステップの変種が適用される場合、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示した。
本研究では, エンドツーエンドCASS-NATの精度向上のためのいくつかの手法を提案し, 性能解析を行った。
まず、エンコーダモジュールとデコーダモジュールの両方に畳み込み拡張自己アテンションブロックを適用する。
次に,各トークンのトリガーマスク(音響境界)を拡張し,CTCアライメントのロバスト性を高めることを提案する。
さらに、低層パラメータの勾配更新を強化するために繰り返し損失関数が使用される。
外部言語モデルを用いなければ、改良されたcass-natのwersはlibrispeechテストでは3.1%/7.2%、aishell1テストセットでは5.4%、相対的なwer/cer改善は7%〜21%である。
分析では,トークンレベルの音響埋め込みの関係を可視化するために,デコーダ内の注目重量分布をプロットする。
音響埋め込みを可視化すると,それらが単語埋め込みと類似していることが判明し,改良されたCASS-NATがATと同じような動作をする理由が説明される。
関連論文リスト
- Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer
for Speech Recognition [29.55887842348706]
音声認識のためのCTCアライメントに基づく単段非自己回帰デコーダ(CASS-NAT)を提案する。
推論中, 誤差に基づくアライメント手法をCTC空間に適用し, WERを低減し, 出力も保持する。
論文 参考訳(メタデータ) (2020-10-28T03:14:05Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。