論文の概要: Improved Neural Language Model Fusion for Streaming Recurrent Neural
Network Transducer
- arxiv url: http://arxiv.org/abs/2010.13878v1
- Date: Mon, 26 Oct 2020 20:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:07:07.296026
- Title: Improved Neural Language Model Fusion for Streaming Recurrent Neural
Network Transducer
- Title(参考訳): リカレントニューラルネットワークトランスデューサのための改良型ニューラル言語モデル融合
- Authors: Suyoun Kim, Yuan Shangguan, Jay Mahadeokar, Antoine Bruguier,
Christian Fuegen, Michael L. Seltzer, Duc Le
- Abstract要約: リカレントニューラルネットワークトランスデューサ(RNN-T)は暗黙のニューラルネットワーク言語モデル(NNLM)を備えており、トレーニング中に不適切なテキストデータを容易に活用できない。
従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。
トレーニング時間と推論時間の両方において、RNN-Tが外部NNLMを活用できるように、これらの手法の拡張を提案する。
- 参考スコア(独自算出の注目度): 28.697119605752643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent Neural Network Transducer (RNN-T), like most end-to-end speech
recognition model architectures, has an implicit neural network language model
(NNLM) and cannot easily leverage unpaired text data during training. Previous
work has proposed various fusion methods to incorporate external NNLMs into
end-to-end ASR to address this weakness. In this paper, we propose extensions
to these techniques that allow RNN-T to exploit external NNLMs during both
training and inference time, resulting in 13-18% relative Word Error Rate
improvement on Librispeech compared to strong baselines. Furthermore, our
methods do not incur extra algorithmic latency and allow for flexible
plug-and-play of different NNLMs without re-training. We also share in-depth
analysis to better understand the benefits of the different NNLM fusion
methods. Our work provides a reliable technique for leveraging unpaired text
data to significantly improve RNN-T while keeping the system streamable,
flexible, and lightweight.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(RNN-T)は、ほとんどのエンドツーエンドの音声認識モデルアーキテクチャと同様に、暗黙のニューラルネットワーク言語モデル(NNLM)を持ち、トレーニング中に不適切なテキストデータを簡単に利用できない。
従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。
本稿では,学習時間と推論時間の両方において,rnn-tが外部nnlmを活用できるようにする手法の拡張を提案する。
さらに,提案手法はアルゴリズム遅延を余分に発生させることなく,異なるNNLMの柔軟なプラグアンドプレイを可能にする。
また,nnlmの融合手法の利点をより深く理解するために,詳細な分析を行った。
我々の研究は、不用意なテキストデータを活用してRNN-Tを大幅に改善し、システムの合理性、柔軟性、軽量性を保ちながら、信頼性の高い手法を提供する。
関連論文リスト
- The Robustness of Spiking Neural Networks in Communication and its Application towards Network Efficiency in Federated Learning [6.9569682335746235]
スパイキングニューラルネットワーク(SNN)は最近、組み込みデバイスでのオンチップ学習に多大な関心を集めている。
本稿では,フェデレートラーニングにおける雑音の多いコミュニケーション下でのSNNの本質的ロバスト性について検討する。
FLトレーニングにおける帯域幅の削減を目的とした,TopKスパシフィケーションを用いた新しいフェデレートラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-19T13:37:18Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Reinforcement Learning with External Knowledge by using Logical Neural
Networks [67.46162586940905]
論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。
外部知識ソースからのモデルフリー強化学習を可能にする統合手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:34:59Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Operational vs Convolutional Neural Networks for Image Denoising [25.838282412957675]
畳み込みニューラルネットワーク(CNN)は近年,適応学習能力により画像デノナイズ技術として好まれている。
データ変換のコアに新たな非線形性を埋め込むための柔軟性を向上するヘテロジニアスネットワークモデルを提案する。
ONNとCNNの比較評価は、線形演算子に富んだONNが等価かつよく知られた深層構成のCNNに対して優れたノイズ発生性能を達成できるという決定的な証拠が得られる。
論文 参考訳(メタデータ) (2020-09-01T12:15:28Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech [0.0]
我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
論文 参考訳(メタデータ) (2020-06-09T09:01:04Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。