論文の概要: Low latency transformers for speech processing
- arxiv url: http://arxiv.org/abs/2302.13451v1
- Date: Mon, 27 Feb 2023 00:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:10:44.732368
- Title: Low latency transformers for speech processing
- Title(参考訳): 音声処理のための低レイテンシ変換器
- Authors: Jianbo Ma, Siqi Pan, Deepak Chandran, Andrea Fanelli, Richard
Cartwright
- Abstract要約: 固定レイテンシに因果的に動作するストリームアテンション(SA)と,レイヤ数に比例しない複数のSA層を組み合わせたLLSA(LLSA)を導入する。
本稿では,SA法とLLSA法が従来のアカウザー変換器の利点の多くを保ちながら,リアルタイムストリーミングアプリケーションで実行できるようにする遅延特性を示す。
- 参考スコア(独自算出の注目度): 1.356544027928702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer is a widely-used building block in modern neural networks.
However, when applied to audio data, the transformer's acausal behaviour, which
we term Acausal Attention (AA), has generally limited its application to
offline tasks. In this paper we introduce Streaming Attention (SA), which
operates causally with fixed latency, and requires lower compute and memory
resources than AA to train. Next, we introduce Low Latency Streaming Attention
(LLSA), a method which combines multiple SA layers without latency build-up
proportional to the layer count. Comparative analysis between AA, SA and LLSA
on Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER)
tasks are presented. The results show that causal SA-based networks with fixed
latencies of a few seconds (e.g. 1.8 seconds) and LLSA networks with latencies
as short as 300 ms can perform comparably with acausal (AA) networks. We
conclude that SA and LLSA methods retain many of the benefits of conventional
acausal transformers, but with latency characteristics that make them practical
to run in real-time streaming applications.
- Abstract(参考訳): トランスは現代のニューラルネットワークで広く使われているビルディングブロックである。
しかし、オーディオデータに適用すると、acausal attention(aa)と呼ばれるトランスフォーマーのアカウサル動作は、一般的にオフラインタスクに制限されている。
本稿では,ストリーミング注意(SA)について紹介する。これは待ち時間に注意して動作し,AAのトレーニングよりも低い計算資源とメモリリソースを必要とする。
次に,低レイテンシストリーミング注意(LLSA)を導入し,レイヤ数に比例する遅延を伴わない複数のSA層を組み合わせる手法を提案する。
自動音声認識(ASR)と音声感情認識(SER)におけるAA, SA, LLSAの比較分析を行った。
その結果,数秒間 (1.8秒など) の因果SAベースのネットワークと,300ミリ秒間 (300ミリ秒) のLLSAネットワークは,アカソーサル (AA) ネットワークと互換性があることがわかった。
結論として,sa と llsa の手法は従来の acausal トランスフォーマーの利点を多く残しているが,リアルタイムストリーミングアプリケーションで実行するための遅延特性を備えている。
関連論文リスト
- NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Building Accurate Low Latency ASR for Streaming Voice Search [0.0]
本研究は,大規模音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に重点を置いている。
本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。
本稿では,共同ASRとEOS検出が可能なエンド・ツー・エンドモデルの簡単なトレーニングと推論戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T20:24:14Z) - Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2023-02-08T20:52:24Z) - Exploring Attention Map Reuse for Efficient Transformer Neural Networks [18.335207404178547]
トランスフォーマーベースのディープニューラルネットワークは、様々なシーケンスアプリケーションで大きな成功を収めている。
キーモジュールは自己アテンション(SA)であり、位置間の距離に関係なく、シーケンス全体から特徴を抽出する。
近年,複数のSA層をグループ化して1つのアテンションマップを共有するアテンションマップの再利用が提案され,音声認識モデルの大幅な高速化を実現している。
論文 参考訳(メタデータ) (2023-01-29T13:38:45Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。