論文の概要: Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications
- arxiv url: http://arxiv.org/abs/2010.14665v2
- Date: Thu, 29 Oct 2020 18:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:34:14.065728
- Title: Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications
- Title(参考訳): 動作中の変圧器:大規模音声認識のための変圧器ベース音響モデルの比較研究
- Authors: Yongqiang Wang, Yangyang Shi, Frank Zhang, Chunyang Wu, Julian Chan,
Ching-Feng Yeh, Alex Xiao
- Abstract要約: インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的単語誤り率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、LCBLSTMと同じようなモデルサイズとレイテンシを比較して、Emformerはビデオキャプションデータセットで4つの言語にわたる重要なWERRを取得する。
- 参考スコア(独自算出の注目度): 23.470690511056173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we summarize the application of transformer and its streamable
variant, Emformer based acoustic model for large scale speech recognition
applications. We compare the transformer based acoustic models with their LSTM
counterparts on industrial scale tasks. Specifically, we compare Emformer with
latency-controlled BLSTM (LCBLSTM) on medium latency tasks and LSTM on low
latency tasks. On a low latency voice assistant task, Emformer gets 24% to 26%
relative word error rate reductions (WERRs). For medium latency scenarios,
comparing with LCBLSTM with similar model size and latency, Emformer gets
significant WERR across four languages in video captioning datasets with 2-3
times inference real-time factors reduction.
- Abstract(参考訳): 本稿では,変圧器とそのストリーム可能な変種 Emformer を用いた大規模音声認識への応用について要約する。
インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
具体的には,低レイテンシタスクにおけるLSTMと中遅延タスクにおけるLCBLSTMを比較した。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的な単語エラー率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、CBLSTMと同じようなモデルサイズとレイテンシを比較すると、Emformerはビデオキャプションデータセットの4つの言語にわたる重要なWERRを取得し、リアルタイムな要因を2~3倍削減する。
関連論文リスト
- State-Space Large Audio Language Models [38.65927845229572]
LALM(Large Audio Language Models)は、音声認識モデルとLLM(Large Language Models)を組み合わせた言語モデルである。
これらのシステムは、メモリや時間制約のあるシナリオにこれらのシステムをデプロイする際の計算上の課題を生じさせる入力シーケンス長と2次スケールのトランスフォーマーに依存している。
実験結果から, パラメータ数が著しく少ないにもかかわらず, 各種データセット上でのクローズドタスクにおいて, トランスフォーマーベースのLALMと競合することを示す。
論文 参考訳(メタデータ) (2024-11-24T02:21:28Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。