論文の概要: Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2409.07165v1
- Date: Wed, 11 Sep 2024 10:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:02:58.587406
- Title: Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition
- Title(参考訳): ストリーム音声認識のための要約ミキシングを用いた線形時間複雑コンバータ
- Authors: Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Batthacharya,
- Abstract要約: SummaryMixingは、非ストリーミング音声認識のための自己注意に代わる、有望な線形時間複雑性である。
この作業は、SlimiseMixingをストリーミングとオフラインモードの両方で動作するConformer Transducerに拡張する。
この新たな線形時間複雑性音声エンコーダは、両方のシナリオにおいて自己注意よりも優れていた。
- 参考スコア(独自算出の注目度): 15.302106458232878
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) with an encoder equipped with self-attention, whether streaming or non-streaming, takes quadratic time in the length of the speech utterance. This slows down training and decoding, increase their cost, and limit the deployment of the ASR in constrained devices. SummaryMixing is a promising linear-time complexity alternative to self-attention for non-streaming speech recognition that, for the first time, preserves or outperforms the accuracy of self-attention models. Unfortunately, the original definition of SummaryMixing is not suited to streaming speech recognition. Hence, this work extends SummaryMixing to a Conformer Transducer that works in both a streaming and an offline mode. It shows that this new linear-time complexity speech encoder outperforms self-attention in both scenarios while requiring less compute and memory during training and decoding.
- Abstract(参考訳): 自動音声認識(ASR)は、音声発話の長さにおいて、ストリーミングか非ストリーミングかを問わない、自己アテンションを備えたエンコーダを備える。
これにより、トレーニングとデコードが遅くなり、コストが増加し、制約されたデバイスへのASRのデプロイが制限される。
SummaryMixingは、非ストリーミング音声認識のための自己認識に代わる有望な線形時間複雑性であり、初めて自己認識モデルの精度を保存または上回る。
残念ながら、SlideMixingの本来の定義は、ストリーミング音声認識には適していない。
したがって、この作業はSlideMixingをストリーミングとオフラインモードの両方で動作するConformer Transducerに拡張する。
この新たな線形時間複雑性音声エンコーダは、トレーニングと復号中に計算とメモリを少なくしながら、両方のシナリオで自己アテンションを上回っている。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding [17.360059094663182]
本稿では,自己注意に対する線形時間的代替案を提案する。
すべての時間ステップの平均オーバーベクターとの発話を要約する。
この単一の要約は、時間固有の情報と結合される。
論文 参考訳(メタデータ) (2023-07-12T12:51:23Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。