論文の概要: HMM-Free Encoder Pre-Training for Streaming RNN Transducer
- arxiv url: http://arxiv.org/abs/2104.10764v2
- Date: Fri, 11 Jun 2021 03:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 19:43:28.374833
- Title: HMM-Free Encoder Pre-Training for Streaming RNN Transducer
- Title(参考訳): ストリーミングRNNトランスデューサのためのHMMフリーエンコーダ事前学習
- Authors: Lu Huang, Jingyu Sun, Yufeng Tang, Junfeng Hou, Jinkun Chen, Jun
Zhang, Zejun Ma
- Abstract要約: 本研究では,ストリームリカレントニューラルネットワークトランスデューサ(RNN-T)モデルのトレーニングを改善するために,フレームワイズラベルを用いたエンコーダ事前トレーニング手順について述べる。
我々の知る限り、これはCTCモデルを用いてHMMベースのフレームワイドラベルを事前学習する最初の試みである。
- 参考スコア(独自算出の注目度): 9.970995981222993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes an encoder pre-training procedure using frame-wise label
to improve the training of streaming recurrent neural network transducer
(RNN-T) model. Streaming RNN-T trained from scratch usually performs worse than
non-streaming RNN-T. Although it is common to address this issue through
pre-training components of RNN-T with other criteria or frame-wise alignment
guidance, the alignment is not easily available in end-to-end manner. In this
work, frame-wise alignment, used to pre-train streaming RNN-T's encoder, is
generated without using a HMM-based system. Therefore an all-neural framework
equipping HMM-free encoder pre-training is constructed. This is achieved by
expanding the spikes of CTC model to their left/right blank frames, and two
expanding strategies are proposed. To our best knowledge, this is the first
work to simulate HMM-based frame-wise label using CTC model for pre-training.
Experiments conducted on LibriSpeech and MLS English tasks show the proposed
pre-training procedure, compared with random initialization, reduces the WER by
relatively 5%~11% and the emission latency by 60 ms. Besides, the method is
lexicon-free, so it is friendly to new languages without manually designed
lexicon.
- Abstract(参考訳): 本研究では,ストリームリカレントニューラルネットワークトランスデューサ(RNN-T)モデルのトレーニングを改善するために,フレームワイズラベルを用いたエンコーダ事前トレーニング手順について述べる。
ストクラッチからトレーニングされたストリーミングRNN-Tは通常、非ストリーミングRNN-Tよりもパフォーマンスが悪い。
RNN-Tのコンポーネントを他の基準やフレーム単位のアライメントガイダンスで事前学習することでこの問題に対処することが一般的であるが、このアライメントはエンドツーエンドで簡単には利用できない。
本研究では,ストリームRNN-Tエンコーダの事前トレーニングに用いるフレームワイドアライメントを,HMMベースのシステムを用いることなく生成する。
したがって、HMMフリーエンコーダをプリトレーニングするオールニューラルネットワークフレームワークを構築する。
これは、CTCモデルのスパイクを左右の空白フレームに拡大することで実現され、2つの拡張戦略が提案される。
我々の知る限り、これはCTCモデルを用いてHMMベースのフレームワイドラベルを事前学習する最初の試みである。
librispeech と mls の英語タスクで行った実験では、ランダム初期化と比較して提案されている事前学習手順は、平均5%~11%減少し、エミッションレイテンシは60ms減少することが示された。
関連論文リスト
- Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Accelerating RNN-T Training and Inference Using CTC guidance [18.776997761704784]
提案手法は, 単語誤り率(WER)と類似あるいは若干良い単語誤り率(WER)で, RNN-T推論を2.2倍高速化することができる。
提案手法により, 単語誤り率(WER)を2.2倍に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-10-29T03:39:18Z) - Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。
本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-01T01:34:28Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。