論文の概要: Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.00572v1
- Date: Fri, 1 May 2020 19:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:23:03.379433
- Title: Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition
- Title(参考訳): RNNトランスデューサを用いたエンドツーエンド音声認識のためのアライメントによる事前学習の検討
- Authors: Hu Hu, Rui Zhao, Jinyu Li, Liang Lu, Yifan Gong
- Abstract要約: リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
- 参考スコア(独自算出の注目度): 39.497407288772386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the recurrent neural network transducer (RNN-T) architecture has
become an emerging trend in end-to-end automatic speech recognition research
due to its advantages of being capable for online streaming speech recognition.
However, RNN-T training is made difficult by the huge memory requirements, and
complicated neural structure. A common solution to ease the RNN-T training is
to employ connectionist temporal classification (CTC) model along with RNN
language model (RNNLM) to initialize the RNN-T parameters. In this work, we
conversely leverage external alignments to seed the RNN-T model. Two different
pre-training solutions are explored, referred to as encoder pre-training, and
whole-network pre-training respectively. Evaluated on Microsoft 65,000 hours
anonymized production data with personally identifiable information removed,
our proposed methods can obtain significant improvement. In particular, the
encoder pre-training solution achieved a 10% and a 8% relative word error rate
reduction when compared with random initialization and the widely used
CTC+RNNLM initialization strategy, respectively. Our solutions also
significantly reduce the RNN-T model latency from the baseline.
- Abstract(参考訳): 近年,リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは,オンライン・ストリーミング音声認識の利点から,エンドツーエンドの自動音声認識研究において新たなトレンドとなっている。
しかし、RNN-Tトレーニングは、巨大なメモリ要件と複雑な神経構造によって困難である。
RNN-Tのトレーニングを容易にするための一般的な解決策は、接続型時間分類(CTC)モデルとRNN言語モデル(RNNLM)を用いて、RNN-Tパラメータを初期化することである。
本研究では,RNN-Tモデルをシードするために外部アライメントを利用する。
エンコーダプリトレーニングと呼ばれる2つの異なるプリトレーニングソリューションと、ネットワーク全体のプリトレーニングが検討されている。
Microsoft 65,000時間の匿名化生産データから個人識別可能な情報を取り除いた結果,提案手法は大幅な改善が得られた。
特に,ランダム初期化および広く用いられているctc+rnnlm初期化戦略と比較して,エンコーダ事前学習溶液は10%と8%の単語誤り率削減を達成した。
我々のソリューションは、ベースラインからRNN-Tモデルの遅延を著しく低減します。
関連論文リスト
- Accurate Mapping of RNNs on Neuromorphic Hardware with Adaptive Spiking Neurons [2.9410174624086025]
我々は、SigmaDelta$-low-pass RNN(lpRNN)を、レートベースのRNNをスパイクニューラルネットワーク(SNN)にマッピングするために提示する。
適応スパイキングニューロンモデルは、$SigmaDelta$-modulationを使って信号を符号化し、正確なマッピングを可能にする。
我々は、Intelのニューロモルフィック研究チップLoihiにおけるlpRNNの実装を実演する。
論文 参考訳(メタデータ) (2024-07-18T14:06:07Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Skip-Connected Self-Recurrent Spiking Neural Networks with Joint
Intrinsic Parameter and Synaptic Weight Training [14.992756670960008]
我々はSkip-Connected Self-Recurrent SNNs (ScSr-SNNs) と呼ばれる新しいタイプのRSNNを提案する。
ScSr-SNNは、最先端BP法で訓練された他のタイプのRSNNと比較して、パフォーマンスを最大2.55%向上させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:27:13Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。