論文の概要: Low latency transformers for speech processing
- arxiv url: http://arxiv.org/abs/2302.13451v1
- Date: Mon, 27 Feb 2023 00:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:10:44.732368
- Title: Low latency transformers for speech processing
- Title(参考訳): 音声処理のための低レイテンシ変換器
- Authors: Jianbo Ma, Siqi Pan, Deepak Chandran, Andrea Fanelli, Richard
Cartwright
- Abstract要約: 固定レイテンシに因果的に動作するストリームアテンション(SA)と,レイヤ数に比例しない複数のSA層を組み合わせたLLSA(LLSA)を導入する。
本稿では,SA法とLLSA法が従来のアカウザー変換器の利点の多くを保ちながら,リアルタイムストリーミングアプリケーションで実行できるようにする遅延特性を示す。
- 参考スコア(独自算出の注目度): 1.356544027928702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer is a widely-used building block in modern neural networks.
However, when applied to audio data, the transformer's acausal behaviour, which
we term Acausal Attention (AA), has generally limited its application to
offline tasks. In this paper we introduce Streaming Attention (SA), which
operates causally with fixed latency, and requires lower compute and memory
resources than AA to train. Next, we introduce Low Latency Streaming Attention
(LLSA), a method which combines multiple SA layers without latency build-up
proportional to the layer count. Comparative analysis between AA, SA and LLSA
on Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER)
tasks are presented. The results show that causal SA-based networks with fixed
latencies of a few seconds (e.g. 1.8 seconds) and LLSA networks with latencies
as short as 300 ms can perform comparably with acausal (AA) networks. We
conclude that SA and LLSA methods retain many of the benefits of conventional
acausal transformers, but with latency characteristics that make them practical
to run in real-time streaming applications.
- Abstract(参考訳): トランスは現代のニューラルネットワークで広く使われているビルディングブロックである。
しかし、オーディオデータに適用すると、acausal attention(aa)と呼ばれるトランスフォーマーのアカウサル動作は、一般的にオフラインタスクに制限されている。
本稿では,ストリーミング注意(SA)について紹介する。これは待ち時間に注意して動作し,AAのトレーニングよりも低い計算資源とメモリリソースを必要とする。
次に,低レイテンシストリーミング注意(LLSA)を導入し,レイヤ数に比例する遅延を伴わない複数のSA層を組み合わせる手法を提案する。
自動音声認識(ASR)と音声感情認識(SER)におけるAA, SA, LLSAの比較分析を行った。
その結果,数秒間 (1.8秒など) の因果SAベースのネットワークと,300ミリ秒間 (300ミリ秒) のLLSAネットワークは,アカソーサル (AA) ネットワークと互換性があることがわかった。
結論として,sa と llsa の手法は従来の acausal トランスフォーマーの利点を多く残しているが,リアルタイムストリーミングアプリケーションで実行するための遅延特性を備えている。
関連論文リスト
- FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2023-02-08T20:52:24Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。