論文の概要: Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2007.00131v1
- Date: Tue, 30 Jun 2020 22:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 06:05:53.783195
- Title: Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition
- Title(参考訳): マルチビュー周波数LSTM:自動音声認識のための効率的なフロントエンド
- Authors: Maarten Van Segbroeck, Harish Mallidih, Brian King, I-Fan Chen,
Gurpreet Chadha, Roland Maas
- Abstract要約: 複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
- 参考スコア(独自算出の注目度): 4.753402561130792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic models in real-time speech recognition systems typically stack
multiple unidirectional LSTM layers to process the acoustic frames over time.
Performance improvements over vanilla LSTM architectures have been reported by
prepending a stack of frequency-LSTM (FLSTM) layers to the time LSTM. These
FLSTM layers can learn a more robust input feature to the time LSTM layers by
modeling time-frequency correlations in the acoustic input signals. A drawback
of FLSTM based architectures however is that they operate at a predefined, and
tuned, window size and stride, referred to as 'view' in this paper. We present
a simple and efficient modification by combining the outputs of multiple FLSTM
stacks with different views, into a dimensionality reduced feature
representation. The proposed multi-view FLSTM architecture allows to model a
wider range of time-frequency correlations compared to an FLSTM model with
single view. When trained on 50K hours of English far-field speech data with
CTC loss followed by sMBR sequence training, we show that the multi-view FLSTM
acoustic model provides relative Word Error Rate (WER) improvements of 3-7% for
different speaker and acoustic environment scenarios over an optimized single
FLSTM model, while retaining a similar computational footprint.
- Abstract(参考訳): リアルタイム音声認識システムにおける音響モデルは通常、複数の一方向lstm層を積み重ねて音響フレームを時間をかけて処理する。
バニラLSTMアーキテクチャの性能改善は、周波数LSTM(FLSTM)層のスタックを時間LSTMに前倒しすることで報告されている。
これらのFLSTM層は、音響入力信号の時間周波数相関をモデル化することにより、時刻LSTM層に対してより堅牢な入力特徴を学習することができる。
しかし、FLSTMベースのアーキテクチャの欠点は、事前に定義された、調整されたウィンドウサイズとストライドで動作することであり、この論文では「ビュー」と呼ばれている。
本稿では,複数のFLSTMスタックの出力を異なるビューに組み合わせて,次元の縮小した特徴表現に簡易かつ効率的な修正を提案する。
提案したマルチビュー FLSTM アーキテクチャは,単一ビューの FLSTM モデルと比較してより広い時間周波数相関をモデル化することができる。
CTC損失とsMBRシークエンストレーニングを併用した50K時間英語遠距離音声データのトレーニングを行ったところ、このマルチビューFLSTM音響モデルは、類似した計算フットプリントを維持しつつ、異なる話者および音響環境シナリオに対して3-7%の相対的なワード誤り率(WER)改善を提供することを示した。
関連論文リスト
- RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video
Prediction Domain [8.216911980865902]
既存のRNNモデルは、積み重ねレイヤーのみによって、マルチスケールの機能を得ることができる。
本稿では,マルチスケールの観点からMS-LSTMを完全に提案する。
理論的にはMS-LSTMとそのコンポーネントのトレーニングコストと性能を理論的に分析する。
論文 参考訳(メタデータ) (2023-04-16T08:25:02Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Image Classification using Sequence of Pixels [3.04585143845864]
本研究では,繰り返しニューラルネットワークを用いた逐次画像分類法の比較を行った。
本稿では,Long-Short-Term memory(LSTM)やBidirectional Long-Short-Term memory(BiLSTM)アーキテクチャに基づく手法について述べる。
論文 参考訳(メタデータ) (2022-09-23T09:42:44Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications [23.470690511056173]
インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的単語誤り率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、LCBLSTMと同じようなモデルサイズとレイテンシを比較して、Emformerはビデオキャプションデータセットで4つの言語にわたる重要なWERRを取得する。
論文 参考訳(メタデータ) (2020-10-27T23:04:21Z) - Sentiment Analysis Using Simplified Long Short-term Memory Recurrent
Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。
学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T12:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。