論文の概要: Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.03192v1
- Date: Wed, 7 Oct 2020 05:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:32:10.488260
- Title: Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition
- Title(参考訳): Transformer Transducer:一モデルによるストリームと非ストリーム音声認識
- Authors: Anshuman Tripathi, Jaeyoung Kim, Qian Zhang, Han Lu, Hasim Sak
- Abstract要約: 本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
- 参考スコア(独自算出の注目度): 16.082949461807335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a Transformer-Transducer model architecture and a
training technique to unify streaming and non-streaming speech recognition
models into one model. The model is composed of a stack of transformer layers
for audio encoding with no lookahead or right context and an additional stack
of transformer layers on top trained with variable right context. In inference
time, the context length for the variable context layers can be changed to
trade off the latency and the accuracy of the model. We also show that we can
run this model in a Y-model architecture with the top layers running in
parallel in low latency and high latency modes. This allows us to have
streaming speech recognition results with limited latency and delayed speech
recognition results with large improvements in accuracy (20% relative
improvement for voice-search task). We show that with limited right context
(1-2 seconds of audio) and small additional latency (50-100 milliseconds) at
the end of decoding, we can achieve similar accuracy with models using
unlimited audio right context. We also present optimizations for audio and
label encoders to speed up the inference in streaming and non-streaming speech
decoding.
- Abstract(参考訳): 本稿では、トランスフォーマトランスデューサモデルアーキテクチャと、ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合する訓練手法を提案する。
モデルは、ルックアヘッドや右コンテキストのないオーディオエンコーディングのためのトランスフォーマー層のスタックと、可変右コンテキストでトレーニングされたトランスフォーマー層のスタックで構成されている。
推論時間では、可変コンテキスト層のコンテキスト長を変更して、モデルのレイテンシと精度をトレードオフすることができる。
また、このモデルを低レイテンシと高レイテンシモードで、上位層が並列に実行されるYモデルアーキテクチャで実行可能であることも示しています。
これにより、レイテンシが制限されたストリーミング音声認識結果と遅延音声認識結果の精度が大きく向上した(音声検索タスクの20%の相対的改善)。
右コンテキスト(1~2秒のオーディオ)と小さな遅延(50~100ミリ秒)がデコーディングの最後にあれば、無制限のオーディオコンテキストを使用してモデルと同じような精度が得られることを示す。
また、音声およびラベルエンコーダの最適化により、ストリーミングおよび非ストリーミング音声復号の推論を高速化する。
関連論文リスト
- Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。