Fugu-MT 論文翻訳(概要): Low latency transformers for speech processing

論文の概要: Low latency transformers for speech processing

arxiv url: http://arxiv.org/abs/2302.13451v1
Date: Mon, 27 Feb 2023 00:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 17:10:44.732368
Title: Low latency transformers for speech processing
Title（参考訳）: 音声処理のための低レイテンシ変換器
Authors: Jianbo Ma, Siqi Pan, Deepak Chandran, Andrea Fanelli, Richard Cartwright
Abstract要約: 固定レイテンシに因果的に動作するストリームアテンション(SA)と,レイヤ数に比例しない複数のSA層を組み合わせたLLSA(LLSA)を導入する。本稿では,SA法とLLSA法が従来のアカウザー変換器の利点の多くを保ちながら,リアルタイムストリーミングアプリケーションで実行できるようにする遅延特性を示す。
参考スコア（独自算出の注目度）: 1.356544027928702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The transformer is a widely-used building block in modern neural networks. However, when applied to audio data, the transformer's acausal behaviour, which we term Acausal Attention (AA), has generally limited its application to offline tasks. In this paper we introduce Streaming Attention (SA), which operates causally with fixed latency, and requires lower compute and memory resources than AA to train. Next, we introduce Low Latency Streaming Attention (LLSA), a method which combines multiple SA layers without latency build-up proportional to the layer count. Comparative analysis between AA, SA and LLSA on Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER) tasks are presented. The results show that causal SA-based networks with fixed latencies of a few seconds (e.g. 1.8 seconds) and LLSA networks with latencies as short as 300 ms can perform comparably with acausal (AA) networks. We conclude that SA and LLSA methods retain many of the benefits of conventional acausal transformers, but with latency characteristics that make them practical to run in real-time streaming applications.
Abstract（参考訳）: トランスは現代のニューラルネットワークで広く使われているビルディングブロックである。しかし、オーディオデータに適用すると、acausal attention(aa)と呼ばれるトランスフォーマーのアカウサル動作は、一般的にオフラインタスクに制限されている。本稿では,ストリーミング注意(SA)について紹介する。これは待ち時間に注意して動作し,AAのトレーニングよりも低い計算資源とメモリリソースを必要とする。次に,低レイテンシストリーミング注意(LLSA)を導入し,レイヤ数に比例する遅延を伴わない複数のSA層を組み合わせる手法を提案する。自動音声認識(ASR)と音声感情認識(SER)におけるAA, SA, LLSAの比較分析を行った。その結果,数秒間 (1.8秒など) の因果SAベースのネットワークと,300ミリ秒間 (300ミリ秒) のLLSAネットワークは,アカソーサル (AA) ネットワークと互換性があることがわかった。結論として,sa と llsa の手法は従来の acausal トランスフォーマーの利点を多く残しているが,リアルタイムストリーミングアプリケーションで実行するための遅延特性を備えている。

関連論文リスト

Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。 DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文参考訳（メタデータ） (2025-05-24T02:23:46Z)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文参考訳（メタデータ） (2024-10-16T12:45:35Z)
Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文参考訳（メタデータ） (2023-09-19T20:55:58Z)
Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。 STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文参考訳（メタデータ） (2023-02-08T20:52:24Z)
MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文参考訳（メタデータ） (2022-11-02T23:34:12Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。 AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文参考訳（メタデータ） (2021-04-08T07:56:03Z)
Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文参考訳（メタデータ） (2021-04-06T00:55:11Z)
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:05:01Z)
Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成したエンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。 Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文参考訳（メタデータ） (2020-08-13T08:20:02Z)
Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。 We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文参考訳（メタデータ） (2020-05-18T23:49:40Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。