論文の概要: Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability
- arxiv url: http://arxiv.org/abs/2007.15188v1
- Date: Thu, 30 Jul 2020 02:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:43:48.492420
- Title: Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability
- Title(参考訳): カスタマイズ機能を有する高性能ハイブリッドモデルを上回るrnn-tモデルの開発
- Authors: Jinyu Li, Rui Zhao, Zhong Meng, Yanqing Liu, Wenning Wei, Sarangarajan
Parthasarathy, Vadim Mazalov, Zhenghao Wang, Lei He, Sheng Zhao, and Yifan
Gong
- Abstract要約: リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
- 参考スコア(独自算出の注目度): 46.73349163361723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because of its streaming nature, recurrent neural network transducer (RNN-T)
is a very promising end-to-end (E2E) model that may replace the popular hybrid
model for automatic speech recognition. In this paper, we describe our recent
development of RNN-T models with reduced GPU memory consumption during
training, better initialization strategy, and advanced encoder modeling with
future lookahead. When trained with Microsoft's 65 thousand hours of anonymized
training data, the developed RNN-T model surpasses a very well trained hybrid
model with both better recognition accuracy and lower latency. We further study
how to customize RNN-T models to a new domain, which is important for deploying
E2E models to practical scenarios. By comparing several methods leveraging
text-only data in the new domain, we found that updating RNN-T's prediction and
joint networks using text-to-speech generated from domain-specific text is the
most effective.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(recurrent neural network transducer, rnn-t)は、自動音声認識のためのハイブリッドモデルに代わる、非常に有望なエンドツーエンド(e2e)モデルである。
本稿では、トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの開発、より優れた初期化戦略、将来の展望による高度なエンコーダモデリングについて述べる。
マイクロソフトの匿名化トレーニングデータ6万6千時間でトレーニングすると、開発済みのrnn-tモデルは、認識精度とレイテンシの両面で非常によく訓練されたハイブリッドモデルを超えます。
さらに,実践シナリオにE2Eモデルをデプロイする上で重要な,RNN-Tモデルを新しいドメインにカスタマイズする方法についても検討する。
新しいドメインにおけるテキストのみデータを利用する方法をいくつか比較した結果,rnn-tの予測と,ドメイン特化テキストから生成したテキスト対音声を用いた共同ネットワークの更新が最も効果的であることが判明した。
関連論文リスト
- Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - Adversarial Learning Networks: Source-free Unsupervised Domain
Incremental Learning [0.0]
非定常環境では、DNNモデルの更新にはパラメータの再トレーニングやモデル微調整が必要である。
DNN分類モデルを更新するための教師なしソースフリー手法を提案する。
既存の手法とは異なり,本手法では過去のトレーニングデータを格納することなく,非定常的なソースとターゲットタスクに対して段階的にDNNモデルを更新することができる。
論文 参考訳(メタデータ) (2023-01-28T02:16:13Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - On the Comparison of Popular End-to-End Models for Large Scale Speech
Recognition [42.31610064372749]
Recurrent Neural Network Transducer (RNN-T)、RNN attention-based encoder-decoder (AED)、Transformer-AEDである。
本研究では,RNN-T,RNN-AED,Transformer-AEDを非ストリーミングモードおよびストリーミングモードで比較した。
ストリーミングRNN-Tモデルとトランスフォーマー-AEDモデルの両方が、高度に最適化されたハイブリッドモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-05-28T22:30:57Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。