Fugu-MT 論文翻訳(概要): Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition

論文の概要: Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition

arxiv url: http://arxiv.org/abs/2010.10759v4
Date: Wed, 30 Dec 2020 07:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 23:14:54.806577
Title: Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition
Title（参考訳）: emformer:低レイテンシストリーミング音声認識のための効率的なメモリトランスフォーマーに基づく音響モデル
Authors: Yangyang Shi, Yongqiang Wang, Chunyang Wu, Ching-Feng Yeh, Julian Chan, Frank Zhang, Duc Le, Mike Seltzer
Abstract要約: 長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。平均遅延960ミリ秒では、EmformerはテストクリーンでWER$2.50%、他で$5.62%となる。
参考スコア（独自算出の注目度）: 23.496223778642758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes an efficient memory transformer Emformer for low latency streaming speech recognition. In Emformer, the long-range history context is distilled into an augmented memory bank to reduce self-attention's computation complexity. A cache mechanism saves the computation for the key and value in self-attention for the left context. Emformer applies a parallelized block processing in training to support low latency models. We carry out experiments on benchmark LibriSpeech data. Under average latency of 960 ms, Emformer gets WER $2.50\%$ on test-clean and $5.62\%$ on test-other. Comparing with a strong baseline augmented memory transformer (AM-TRF), Emformer gets $4.6$ folds training speedup and $18\%$ relative real-time factor (RTF) reduction in decoding with relative WER reduction $17\%$ on test-clean and $9\%$ on test-other. For a low latency scenario with an average latency of 80 ms, Emformer achieves WER $3.01\%$ on test-clean and $7.09\%$ on test-other. Comparing with the LSTM baseline with the same latency and model size, Emformer gets relative WER reduction $9\%$ and $16\%$ on test-clean and test-other, respectively.
Abstract（参考訳）: 本稿では低遅延ストリーミング音声認識のための効率的なメモリ変換器Emformerを提案する。 Emformerでは、長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。 emformerは、低レイテンシモデルをサポートするために、トレーニングに並列化ブロック処理を適用する。ベンチマークのLibriSpeechデータに対して実験を行う。平均遅延 960 ms では、Emformer はテストクリーンで WER 2.50 % 、他で 5.62 % となる。強力なベースライン拡張メモリトランスフォーマー(am-trf)と比較すると、emformerはトレーニングのスピードアップに4.6ドル、相対リアルタイムファクター(rtf)のデコード削減に18\%、テストクリーンに17\%、テストに9\%のコストがかかる。平均レイテンシ80msの低レイテンシシナリオでは、emformerはテストクリーンで$3.01\%、テストで$7.09\%である。 LSTMベースラインを同じレイテンシとモデルサイズで比較すると、Emformerは相対的なWER削減を9.5%、テストクリーンで16.%となっている。

関連論文リスト

Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文参考訳（メタデータ） (2024-10-10T11:00:55Z)
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation [21.242398582282522]
視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。 MDSGenはマスク付き拡散変換器を採用し、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。ベンチマークVGGSoundデータセットから評価すると、最小のモデル(5Mパラメータ)は9.7.9$%のアライメント精度を実現している。我々のより大きなモデル(131Mパラメータ)は、ほぼ99$%の精度に到達し、6.5times$より少ないパラメータを必要とします。
論文参考訳（メタデータ） (2024-10-03T01:23:44Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。 LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-19T15:22:25Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
A low latency attention module for streaming self-supervised speech representation learning [0.4288177321445912]
SSRL(Self-latency Speech Expression Learning)は、トランスフォーマーアーキテクチャにおける一般的なユースケースである。本稿では,低演算およびメモリ要求のSSRLアーキテクチャのトレーニングを可能にするアテンションモジュールの実装について述べる。私たちの実装では、推論のレイテンシも1.92秒から0.16秒に短縮しています。
論文参考訳（メタデータ） (2023-02-27T00:44:22Z)
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文参考訳（メタデータ） (2022-11-29T14:57:23Z)
Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文参考訳（メタデータ） (2022-07-18T20:08:55Z)
Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文参考訳（メタデータ） (2022-03-29T14:31:06Z)
Listen Attentively, and Spell Once: Whole Sentence Generation via a Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。我々は,中国における公開データセットAISHELL-1の実験を行った。
論文参考訳（メタデータ） (2020-05-11T04:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。