論文の概要: Emformer: Efficient Memory Transformer Based Acoustic Model For Low
Latency Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.10759v4
- Date: Wed, 30 Dec 2020 07:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:14:54.806577
- Title: Emformer: Efficient Memory Transformer Based Acoustic Model For Low
Latency Streaming Speech Recognition
- Title(参考訳): emformer:低レイテンシストリーミング音声認識のための効率的なメモリトランスフォーマーに基づく音響モデル
- Authors: Yangyang Shi, Yongqiang Wang, Chunyang Wu, Ching-Feng Yeh, Julian
Chan, Frank Zhang, Duc Le, Mike Seltzer
- Abstract要約: 長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。
キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。
平均遅延960ミリ秒では、EmformerはテストクリーンでWER$2.50%、他で$5.62%となる。
- 参考スコア(独自算出の注目度): 23.496223778642758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an efficient memory transformer Emformer for low latency
streaming speech recognition. In Emformer, the long-range history context is
distilled into an augmented memory bank to reduce self-attention's computation
complexity. A cache mechanism saves the computation for the key and value in
self-attention for the left context. Emformer applies a parallelized block
processing in training to support low latency models. We carry out experiments
on benchmark LibriSpeech data. Under average latency of 960 ms, Emformer gets
WER $2.50\%$ on test-clean and $5.62\%$ on test-other. Comparing with a strong
baseline augmented memory transformer (AM-TRF), Emformer gets $4.6$ folds
training speedup and $18\%$ relative real-time factor (RTF) reduction in
decoding with relative WER reduction $17\%$ on test-clean and $9\%$ on
test-other. For a low latency scenario with an average latency of 80 ms,
Emformer achieves WER $3.01\%$ on test-clean and $7.09\%$ on test-other.
Comparing with the LSTM baseline with the same latency and model size, Emformer
gets relative WER reduction $9\%$ and $16\%$ on test-clean and test-other,
respectively.
- Abstract(参考訳): 本稿では低遅延ストリーミング音声認識のための効率的なメモリ変換器Emformerを提案する。
Emformerでは、長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。
キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。
emformerは、低レイテンシモデルをサポートするために、トレーニングに並列化ブロック処理を適用する。
ベンチマークのLibriSpeechデータに対して実験を行う。
平均遅延 960 ms では、Emformer はテストクリーンで WER 2.50 % 、他で 5.62 % となる。
強力なベースライン拡張メモリトランスフォーマー(am-trf)と比較すると、emformerはトレーニングのスピードアップに4.6ドル、相対リアルタイムファクター(rtf)のデコード削減に18\%、テストクリーンに17\%、テストに9\%のコストがかかる。
平均レイテンシ80msの低レイテンシシナリオでは、emformerはテストクリーンで$3.01\%、テストで$7.09\%である。
LSTMベースラインを同じレイテンシとモデルサイズで比較すると、Emformerは相対的なWER削減を9.5%、テストクリーンで16.%となっている。
関連論文リスト
- Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-19T15:22:25Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - A low latency attention module for streaming self-supervised speech representation learning [0.4288177321445912]
SSRL(Self-latency Speech Expression Learning)は、トランスフォーマーアーキテクチャにおける一般的なユースケースである。
本稿では,低演算およびメモリ要求のSSRLアーキテクチャのトレーニングを可能にするアテンションモジュールの実装について述べる。
私たちの実装では、推論のレイテンシも1.92秒から0.16秒に短縮しています。
論文 参考訳(メタデータ) (2023-02-27T00:44:22Z) - Neural Transducer Training: Reduced Memory Consumption with Sample-wise
Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。
提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。
その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文 参考訳(メタデータ) (2022-11-29T14:57:23Z) - Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文 参考訳(メタデータ) (2022-07-18T20:08:55Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。