論文の概要: High-Accuracy and Low-Latency Speech Recognition with Two-Head
Contextual Layer Trajectory LSTM Model
- arxiv url: http://arxiv.org/abs/2003.07482v1
- Date: Tue, 17 Mar 2020 00:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 21:50:27.009251
- Title: High-Accuracy and Low-Latency Speech Recognition with Two-Head
Contextual Layer Trajectory LSTM Model
- Title(参考訳): 2面層軌道LSTMモデルによる高精度・低レイテンシ音声認識
- Authors: Jinyu Li, Rui Zhao, Eric Sun, Jeremy H. M. Wong, Amit Das, Zhong Meng,
and Yifan Gong
- Abstract要約: 我々は,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改良を行った。
高い精度を達成するために、時間的モデリングとターゲット分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用いる。
シーケンスレベルの教師学生学習による学習戦略をさらに改善する。
- 参考スコア(独自算出の注目度): 46.34788932277904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the community keeps promoting end-to-end models over conventional
hybrid models, which usually are long short-term memory (LSTM) models trained
with a cross entropy criterion followed by a sequence discriminative training
criterion, we argue that such conventional hybrid models can still be
significantly improved. In this paper, we detail our recent efforts to improve
conventional hybrid LSTM acoustic models for high-accuracy and low-latency
automatic speech recognition. To achieve high accuracy, we use a contextual
layer trajectory LSTM (cltLSTM), which decouples the temporal modeling and
target classification tasks, and incorporates future context frames to get more
information for accurate acoustic modeling. We further improve the training
strategy with sequence-level teacher-student learning. To obtain low latency,
we design a two-head cltLSTM, in which one head has zero latency and the other
head has a small latency, compared to an LSTM. When trained with Microsoft's 65
thousand hours of anonymized training data and evaluated with test sets with
1.8 million words, the proposed two-head cltLSTM model with the proposed
training strategy yields a 28.2\% relative WER reduction over the conventional
LSTM acoustic model, with a similar perceived latency.
- Abstract(参考訳): コミュニティは、通常、long short-term memory(lstm)モデルがクロスエントロピー基準で訓練され、シーケンス識別訓練基準が続く従来のハイブリッドモデルよりもエンド・ツー・エンドモデルを推進し続けるが、従来のハイブリッドモデルは依然として著しく改善できると主張する。
本稿では,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改善に向けた最近の取り組みについて述べる。
高精度化のために,時間的モデリングと対象分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用い,将来的なコンテキストフレームを組み込んで,正確な音響モデルのための情報を得る。
シーケンスレベルの教師学生学習による学習戦略をさらに改善する。
低レイテンシを実現するために,一方の頭部がゼロレイテンシを持ち,他方の頭部がLSTMに比べて少ないレイテンシを持つ2つの頭部cltLSTMを設計する。
microsoftの匿名化トレーニングデータ6万6千時間でトレーニングを行い、1.8万単語のテストセットで評価すると、提案された2つのヘッドcltlstmモデルは、従来のlstm音響モデルと比較して28.2\%の相対的なwr削減をもたらす。
関連論文リスト
- MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Extreme-Long-short Term Memory for Time-series Prediction [0.0]
Long Short-Term Memory (LSTM)は、新しいタイプのリカレントニューラルネットワーク(RNN)である
本稿では,高度なLSTMアルゴリズムであるExtreme Long Short-Term Memory (E-LSTM)を提案する。
新しいE-LSTMは、7番目のエポックなLSTMの結果を得るためには2エポックしか必要としない。
論文 参考訳(メタデータ) (2022-10-15T09:45:48Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Quantum Long Short-Term Memory [3.675884635364471]
LSTM(Long Short-term memory)は、シーケンスおよび時間依存性データモデリングのためのリカレントニューラルネットワーク(RNN)である。
本稿では,QLSTMを疑似化したLSTMのハイブリッド量子古典モデルを提案する。
我々の研究は、ノイズの多い中間スケール量子(NISQ)デバイス上でのシーケンスモデリングのための機械学習アルゴリズムの実装への道を開いた。
論文 参考訳(メタデータ) (2020-09-03T16:41:09Z) - Sentiment Analysis Using Simplified Long Short-term Memory Recurrent
Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。
学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T12:50:10Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - A Hybrid Residual Dilated LSTM end Exponential Smoothing Model for
Mid-Term Electric Load Forecasting [1.1602089225841632]
このモデルは指数的平滑化(ETS)、高度なLong Short-Term Memory(LSTM)とアンサンブルを組み合わせたものである。
欧州35か国における月次電力需要時系列のシミュレーション研究により,提案モデルの高性能性が確認された。
論文 参考訳(メタデータ) (2020-03-29T10:53:50Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。