論文の概要: High Quality Streaming Speech Synthesis with Low,
Sentence-Length-Independent Latency
- arxiv url: http://arxiv.org/abs/2111.09052v1
- Date: Wed, 17 Nov 2021 11:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:19:29.565563
- Title: High Quality Streaming Speech Synthesis with Low,
Sentence-Length-Independent Latency
- Title(参考訳): 低文長独立レイテンシを用いた高品質ストリーミング音声合成
- Authors: Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos,
Aimilios Chalamandaris, Georgia Maniati, Panos Kakoulidis, Spyros Raptis,
June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis
- Abstract要約: システムは自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと波形生成のためのLPCNetボコーダから構成される。
完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができ、聴取テストによって検証される。
- 参考スコア(独自算出の注目度): 3.119625275101153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an end-to-end text-to-speech system with low latency on a
CPU, suitable for real-time applications. The system is composed of an
autoregressive attention-based sequence-to-sequence acoustic model and the
LPCNet vocoder for waveform generation. An acoustic model architecture that
adopts modules from both the Tacotron 1 and 2 models is proposed, while
stability is ensured by using a recently proposed purely location-based
attention mechanism, suitable for arbitrary sentence length generation. During
inference, the decoder is unrolled and acoustic feature generation is performed
in a streaming manner, allowing for a nearly constant latency which is
independent from the sentence length. Experimental results show that the
acoustic model can produce feature sequences with minimal latency about 31
times faster than real-time on a computer CPU and 6.5 times on a mobile CPU,
enabling it to meet the conditions required for real-time applications on both
devices. The full end-to-end system can generate almost natural quality speech,
which is verified by listening tests.
- Abstract(参考訳): 本稿では,リアルタイムアプリケーションに適した低レイテンシなエンドツーエンド音声合成システムを提案する。
本システムは,自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと,波形生成のためのLPCNetボコーダから構成される。
タコトロン1モデルと2モデルの両方からモジュールを採用する音響モデルアーキテクチャを提案し,最近提案された純粋に位置に基づくアテンション機構を用いて,任意の文長生成に適した安定性を確保する。
推論中、デコーダはロール解除され、音響特徴生成はストリーミング方式で行われ、文長とは独立なほぼ一定なレイテンシが実現される。
実験の結果、音響モデルは、コンピュータのcpuでリアルタイムに約31倍、モバイルcpuで6.5倍のレイテンシで特徴列を生成でき、両方のデバイスでリアルタイムアプリケーションに必要な条件を満足できることがわかった。
完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができる。
関連論文リスト
- Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays [15.788867107071244]
PickNetは、携帯電話のような複数の記録デバイスで構成されるアドホックマイクロフォンアレイのリアルタイムチャネル選択のためのニューラルネットワークモデルである。
提案モデルでは,ブロックオンラインビームフォーマと単一遠方マイクロホンを用いて,計算コストの制限による単語誤り率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2022-01-24T10:52:43Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling [5.080331097831114]
高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-01T18:15:30Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。