論文の概要: ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.14868v1
- Date: Thu, 29 Sep 2022 15:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:58:27.586545
- Title: ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition
- Title(参考訳): ConvRNN-T:ストリーム音声認識のための畳み込み強化リカレントニューラルネットワークトランスデューサ
- Authors: Martin Radfar, Rohit Barnwal, Rupak Vignesh Swaminathan, Feng-Ju
Chang, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris
- Abstract要約: ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
- 参考スコア(独自算出の注目度): 14.384132377946154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recurrent neural network transducer (RNN-T) is a prominent streaming
end-to-end (E2E) ASR technology. In RNN-T, the acoustic encoder commonly
consists of stacks of LSTMs. Very recently, as an alternative to LSTM layers,
the Conformer architecture was introduced where the encoder of RNN-T is
replaced with a modified Transformer encoder composed of convolutional layers
at the frontend and between attention layers. In this paper, we introduce a new
streaming ASR model, Convolutional Augmented Recurrent Neural Network
Transducers (ConvRNN-T) in which we augment the LSTM-based RNN-T with a novel
convolutional frontend consisting of local and global context CNN encoders.
ConvRNN-T takes advantage of causal 1-D convolutional layers,
squeeze-and-excitation, dilation, and residual blocks to provide both global
and local audio context representation to LSTM layers. We show ConvRNN-T
outperforms RNN-T, Conformer, and ContextNet on Librispeech and in-house data.
In addition, ConvRNN-T offers less computational complexity compared to
Conformer. ConvRNN-T's superior accuracy along with its low footprint make it a
promising candidate for on-device streaming ASR technologies.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(RNN-T)は、ストリーミングエンドツーエンド(E2E)のASR技術である。
RNN-Tでは、音響エンコーダは通常LSTMのスタックで構成される。
最近では、LSTMレイヤの代替として、RNN-Tのエンコーダをフロントエンドとアテンション層間の畳み込みレイヤで構成される改良されたTransformerエンコーダに置き換えるConformerアーキテクチャが導入されている。
本稿では,新たなストリーミングASRモデルであるConvolutional Augmented Recurrent Neural Network Transducers (ConvRNN-T)を導入する。
ConvRNN-Tは、大域的および局所的なオーディオコンテキスト表現をLSTM層に提供するために、因果1-D畳み込み層、圧縮と励起、ダイレーション、残余ブロックを利用する。
本稿では,RNN-T や Conformer ,ContextNet より優れる ConvRNN-T について述べる。
さらに、ConvRNN-TはConformerに比べて計算量が少ない。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
関連論文リスト
- On the Design Space Between Transformers and Recursive Neural Nets [64.862738244735]
連続再帰型ニューラルネットワーク(CRvNN)とニューラルデータルータ(NDR)について検討した。
CRvNNは従来のRvNNの境界を押し上げ、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。
NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
論文 参考訳(メタデータ) (2024-09-03T02:03:35Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification [5.28889161958623]
時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2021-07-07T09:43:42Z) - Convolutional Neural Networks with Gated Recurrent Connections [25.806036745901114]
リカレント畳み込みニューラルネットワーク(RCNN)は、動物の視覚系における豊富なリカレント接続にインスパイアされている。
本稿では、繰り返し接続にゲートを導入することにより、ニューロンの受容野(RF)を変調することを提案する。
GRCNNは、オブジェクト認識、シーンテキスト認識、オブジェクト検出などのコンピュータビジョンタスクで評価された。
論文 参考訳(メタデータ) (2021-06-05T10:14:59Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。