論文の概要: Streaming Attention-Based Models with Augmented Memory for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2011.07120v1
- Date: Tue, 3 Nov 2020 00:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:01:23.697119
- Title: Streaming Attention-Based Models with Augmented Memory for End-to-End
Speech Recognition
- Title(参考訳): エンド・ツー・エンド音声認識のための拡張メモリを用いたストリーミングアテンションモデル
- Authors: Ching-Feng Yeh, Yongqiang Wang, Yangyang Shi, Chunyang Wu, Frank
Zhang, Julian Chan, Michael L. Seltzer
- Abstract要約: コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築した。
提案システムは,ストリーミング機能を備えたエンドツーエンドモデルと,拡張メモリを用いたストリーミングアテンションベースモデルからのフットプリントを大幅に削減する。
LibriSpeechデータセットでは,テストクリーンで2.7%,他で5.8%の単語誤り率を実現している。
- 参考スコア(独自算出の注目度): 26.530909772863417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based models have been gaining popularity recently for their strong
performance demonstrated in fields such as machine translation and automatic
speech recognition. One major challenge of attention-based models is the need
of access to the full sequence and the quadratically growing computational cost
concerning the sequence length. These characteristics pose challenges,
especially for low-latency scenarios, where the system is often required to be
streaming. In this paper, we build a compact and streaming speech recognition
system on top of the end-to-end neural transducer architecture with
attention-based modules augmented with convolution. The proposed system equips
the end-to-end models with the streaming capability and reduces the large
footprint from the streaming attention-based model using augmented memory. On
the LibriSpeech dataset, our proposed system achieves word error rates 2.7% on
test-clean and 5.8% on test-other, to our best knowledge the lowest among
streaming approaches reported so far.
- Abstract(参考訳): 近年,機械翻訳や音声認識などの分野での強い性能から,注意に基づくモデルが人気を集めている。
注意に基づくモデルの大きな課題の1つは、全シーケンスへのアクセスの必要性と、シーケンスの長さに関する二次的に増加する計算コストである。
これらの特徴は、特に低レイテンシのシナリオでは、システムがストリーミングを必要とすることが多い。
本稿では,コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築する。
提案するシステムは,ストリーミング機能を備えたエンドツーエンドモデルを実装し,拡張メモリを用いたストリーミング注目モデルから大きなフットプリントを削減できる。
librispeechデータセットでは,提案手法はテストクリーンでは2.7%,テストその他では5.8%の単語誤り率を達成している。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - End-to-end streaming model for low-latency speech anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文 参考訳(メタデータ) (2024-06-13T16:15:53Z) - Folding Attention: Memory and Power Optimization for On-Device
Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。
ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。
本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文 参考訳(メタデータ) (2023-09-14T19:01:08Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。