論文の概要: Attention-based Transducer for Online Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.08497v1
- Date: Mon, 18 May 2020 07:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:17:11.274650
- Title: Attention-based Transducer for Online Speech Recognition
- Title(参考訳): 意図に基づくオンライン音声認識用トランスデューサ
- Authors: Bin Wang, Yan Yin, Hui Lin
- Abstract要約: 本稿では,RNN-Tを改良したアテンションベーストランスデューサを提案する。
我々は,共同ネットワークにチャンクワイズアテンションを導入し,エンコーダに自己注意を導入する。
提案モデルでは,トレーニング速度と精度の両方において,RNN-Tよりも優れていた。
- 参考スコア(独自算出の注目度): 11.308675771607753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies reveal the potential of recurrent neural network transducer
(RNN-T) for end-to-end (E2E) speech recognition. Among some most popular E2E
systems including RNN-T, Attention Encoder-Decoder (AED), and Connectionist
Temporal Classification (CTC), RNN-T has some clear advantages given that it
supports streaming recognition and does not have frame-independency assumption.
Although significant progresses have been made for RNN-T research, it is still
facing performance challenges in terms of training speed and accuracy. We
propose attention-based transducer with modification over RNN-T in two aspects.
First, we introduce chunk-wise attention in the joint network. Second,
self-attention is introduced in the encoder. Our proposed model outperforms
RNN-T for both training speed and accuracy. For training, we achieves over 1.7x
speedup. With 500 hours LAIX non-native English training data, attention-based
transducer yields ~10.6% WER reduction over baseline RNN-T. Trained with full
set of over 10K hours data, our final system achieves ~5.5% WER reduction over
that trained with the best Kaldi TDNN-f recipe. After 8-bit weight quantization
without WER degradation, RTF and latency drop to 0.34~0.36 and 268~409
milliseconds respectively on a single CPU core of a production server.
- Abstract(参考訳): 近年の研究では、エンドツーエンド(E2E)音声認識におけるリカレントニューラルネットワークトランスデューサ(RNN-T)の可能性を明らかにしている。
RNN-T, Attention Encoder-Decoder (AED), Connectionist Temporal Classification (CTC)などの一般的なE2Eシステムの中で、RNN-Tはストリーミング認識をサポートし、フレーム依存性の仮定を持たないという明確な利点がある。
RNN-Tの研究には大きな進歩があったが、トレーニングのスピードと精度に関してはまだパフォーマンス上の課題に直面している。
そこで,rnn-tを改良した注意型トランスデューサを提案する。
まず,ジョイント・ネットワークにおいてチャンク・アテンションを導入する。
次に、エンコーダに自己注意を導入する。
提案モデルでは,トレーニング速度と精度の両方において,RNN-Tよりも優れていた。
トレーニングでは、1.7倍のスピードアップを達成します。
500時間 LAIX の非ネイティブな英語トレーニングデータにより、アテンションベースのトランスデューサはベースライン RNN-T よりも約10.6% WER 削減される。
10K時間以上のデータの完全なセットでトレーニングされた最終システムは、最高のKaldi TDNN-fレシピでトレーニングされたものよりも約5.5%のWER削減を達成した。
WER劣化のない8ビットの量子化の後、RTFとレイテンシはそれぞれプロダクションサーバの1つのCPUコア上で0.34~0.36と268~409ミリ秒に低下した。
関連論文リスト
- On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - A Time-to-first-spike Coding and Conversion Aware Training for
Energy-Efficient Deep Spiking Neural Network Processor Design [2.850312625505125]
本稿では,ハードウェア実装のオーバーヘッドを伴わずに,ANNからSNNへの変換損失を低減するための変換アウェアネストレーニング(CAT)を提案する。
また、スパイク時間情報を利用して、軽量な対数計算が可能なタイム・ツー・ファースト・スパイク・コーディングを提案する。
計算処理装置は、推論エネルギーが486.7uJ、503.6uJ、1426uJの91.7%、67.9%、57.4%というトップ1の精度を達成する。
論文 参考訳(メタデータ) (2022-08-09T01:46:46Z) - Efficient Spiking Neural Networks with Radix Encoding [35.79325964767678]
スパイキングニューラルネットワーク(SNN)は、従来の人工ニューラルネットワーク(ANN)よりもレイテンシとエネルギー効率に利点がある
本稿では,超短スパイク列車を用いたSNNのラジックス符号化を提案する。
実験の結果,VGG-16ネットワークアーキテクチャとCIFAR-10データセットの最先端技術と比較すると,精度は25倍,精度は1.1%向上した。
論文 参考訳(メタデータ) (2021-05-14T16:35:53Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Kernel Based Progressive Distillation for Adder Neural Networks [71.731127378807]
追加のみを含むAdder Neural Networks(ANN)は、エネルギー消費の少ないディープニューラルネットワークを新たに開発する方法を提供する。
すべての畳み込みフィルタを加算フィルタで置き換える場合、精度の低下がある。
本稿では,トレーニング可能なパラメータを増大させることなく,ANNの性能を向上するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T03:29:19Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。
理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:39Z) - You Only Spike Once: Improving Energy-Efficient Neuromorphic Inference
to ANN-Level Accuracy [51.861168222799186]
スパイキングニューラルネットワーク(英: Spiking Neural Networks、SNN)は、神経型ネットワークの一種である。
SNNはスパースであり、重量はごくわずかであり、通常、より電力集約的な乗算および累積演算の代わりに追加操作のみを使用する。
本研究では,TTFS符号化ニューロモルフィックシステムの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2020-06-03T15:55:53Z) - Crossed-Time Delay Neural Network for Speaker Recognition [5.216353911330589]
我々は,現在のTDNNの性能を高めるために,新しい構造であるCrossed-Time Delay Neural Network (CTDNN)を導入する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-31T06:57:34Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。