論文の概要: On the Comparison of Popular End-to-End Models for Large Scale Speech
Recognition
- arxiv url: http://arxiv.org/abs/2005.14327v2
- Date: Thu, 30 Jul 2020 01:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:37:34.275414
- Title: On the Comparison of Popular End-to-End Models for Large Scale Speech
Recognition
- Title(参考訳): 大規模音声認識におけるポピュラーエンド・ツー・エンドモデルの比較
- Authors: Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu
- Abstract要約: Recurrent Neural Network Transducer (RNN-T)、RNN attention-based encoder-decoder (AED)、Transformer-AEDである。
本研究では,RNN-T,RNN-AED,Transformer-AEDを非ストリーミングモードおよびストリーミングモードで比較した。
ストリーミングRNN-Tモデルとトランスフォーマー-AEDモデルの両方が、高度に最適化されたハイブリッドモデルよりも精度が高いことを示す。
- 参考スコア(独自算出の注目度): 42.31610064372749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a strong push to transition from hybrid models to
end-to-end (E2E) models for automatic speech recognition. Currently, there are
three promising E2E methods: recurrent neural network transducer (RNN-T), RNN
attention-based encoder-decoder (AED), and Transformer-AED. In this study, we
conduct an empirical comparison of RNN-T, RNN-AED, and Transformer-AED models,
in both non-streaming and streaming modes. We use 65 thousand hours of
Microsoft anonymized training data to train these models. As E2E models are
more data hungry, it is better to compare their effectiveness with large amount
of training data. To the best of our knowledge, no such comprehensive study has
been conducted yet. We show that although AED models are stronger than RNN-T in
the non-streaming mode, RNN-T is very competitive in streaming mode if its
encoder can be properly initialized. Among all three E2E models,
transformer-AED achieved the best accuracy in both streaming and non-streaming
mode. We show that both streaming RNN-T and transformer-AED models can obtain
better accuracy than a highly-optimized hybrid model.
- Abstract(参考訳): 近年,自動音声認識のためのハイブリッドモデルからエンド・ツー・エンド(e2e)モデルへの移行が進んでいる。
現在、recurrent neural network transducer (rnn-t)、rnn attention-based encoder-decoder (aed)、transformer-aedの3つの有望な方法がある。
本研究では,RNN-T,RNN-AED,Transformer-AEDを非ストリーミングモードおよびストリーミングモードで比較した。
私たちは、これらのモデルをトレーニングするために、Microsoftの匿名化トレーニングデータ6万時間を使用します。
E2Eモデルはデータ空腹が多いため、その有効性を大量のトレーニングデータと比較した方がよい。
私たちの知る限りでは、そのような総合的な研究はまだ行われていない。
非ストリーミングモードではAEDモデルの方がRNN-Tより強いが,エンコーダを適切に初期化できれば,ストリーミングモードではRNN-Tが非常に競合的であることを示す。
3つのE2Eモデルの中で、Transformer-AEDはストリーミングモードと非ストリーミングモードの両方で最高の精度を達成した。
ストリーミングRNN-Tモデルとトランスフォーマー-AEDモデルの両方が、高度に最適化されたハイブリッドモデルよりも精度が高いことを示す。
関連論文リスト
- Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet [24.62661549442265]
我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
論文 参考訳(メタデータ) (2021-10-15T20:28:27Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability [46.73349163361723]
リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
論文 参考訳(メタデータ) (2020-07-30T02:35:20Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。