論文の概要: Alignment Restricted Streaming Recurrent Neural Network Transducer
- arxiv url: http://arxiv.org/abs/2011.03072v1
- Date: Thu, 5 Nov 2020 19:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:39:55.725061
- Title: Alignment Restricted Streaming Recurrent Neural Network Transducer
- Title(参考訳): アライメント制限されたストリームリカレントニューラルネットワークトランスデューサ
- Authors: Jay Mahadeokar, Yuan Shangguan, Duc Le, Gil Keren, Hang Su, Thong Le,
Ching-Feng Yeh, Christian Fuegen, Michael L. Seltzer
- Abstract要約: 本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
- 参考スコア(独自算出の注目度): 29.218353627837214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in the speech community in developing Recurrent
Neural Network Transducer (RNN-T) models for automatic speech recognition (ASR)
applications. RNN-T is trained with a loss function that does not enforce
temporal alignment of the training transcripts and audio. As a result, RNN-T
models built with uni-directional long short term memory (LSTM) encoders tend
to wait for longer spans of input audio, before streaming already decoded ASR
tokens. In this work, we propose a modification to the RNN-T loss function and
develop Alignment Restricted RNN-T (Ar-RNN-T) models, which utilize audio-text
alignment information to guide the loss computation. We compare the proposed
method with existing works, such as monotonic RNN-T, on LibriSpeech and
in-house datasets. We show that the Ar-RNN-T loss provides a refined control to
navigate the trade-offs between the token emission delays and the Word Error
Rate (WER). The Ar-RNN-T models also improve downstream applications such as
the ASR End-pointing by guaranteeing token emissions within any given range of
latency. Moreover, the Ar-RNN-T loss allows for bigger batch sizes and 4 times
higher throughput for our LSTM model architecture, enabling faster training and
convergence on GPUs.
- Abstract(参考訳): 音声認識(ASR)アプリケーションのためのリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの開発において,音声認識コミュニティへの関心が高まっている。
RNN-Tは、トレーニングスクリプトとオーディオの時間的アライメントを強制しない損失関数で訓練される。
その結果、一方向長短メモリ(LSTM)エンコーダで構築されたRNN-Tモデルは、既にデコードされたASRトークンをストリーミングする前に、入力オーディオの長いスパンを待つ傾向にある。
本稿では,rnn-t損失関数の修正と,音声テキストアライメント情報を用いて損失計算を導くアライメント制限rnn-t(ar-rnn-t)モデルの開発を提案する。
提案手法を,LibriSpeechおよび社内データセット上のモノトニックRNN-Tなどの既存手法と比較する。
本稿では,Ar-RNN-T損失が,トークン放出遅延とワードエラー率(WER)のトレードオフをナビゲートする洗練された制御を提供することを示す。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
さらに、Ar-RNN-T損失により、LSTMモデルアーキテクチャのバッチサイズが大きくなり、スループットが4倍になり、GPUの高速なトレーニングと収束が可能になる。
関連論文リスト
- Accurate Mapping of RNNs on Neuromorphic Hardware with Adaptive Spiking Neurons [2.9410174624086025]
我々は、SigmaDelta$-low-pass RNN(lpRNN)を、レートベースのRNNをスパイクニューラルネットワーク(SNN)にマッピングするために提示する。
適応スパイキングニューロンモデルは、$SigmaDelta$-modulationを使って信号を符号化し、正確なマッピングを可能にする。
我々は、Intelのニューロモルフィック研究チップLoihiにおけるlpRNNの実装を実演する。
論文 参考訳(メタデータ) (2024-07-18T14:06:07Z) - CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech
Recognition [8.302549684364195]
本稿では,CIF(Continuous Integrate-and-Fire)機構をRNN-Tモデルに組み込んだCIF-Transducer(CIF-T)を提案する。
CIF-T は RNN-T モデルと比較して計算オーバーヘッドの少ない最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-26T11:59:14Z) - ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition [14.384132377946154]
ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
論文 参考訳(メタデータ) (2022-09-29T15:33:41Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。