論文の概要: Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling
- arxiv url: http://arxiv.org/abs/2104.00705v1
- Date: Thu, 1 Apr 2021 18:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 02:50:17.962989
- Title: Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling
- Title(参考訳): 高速ストリーム型テキスト音声スペクトルモデリングのためのマルチレートアテンションアーキテクチャ
- Authors: Qing He, Zhiping Xiu, Thilo Koehler, Jilong Wu
- Abstract要約: 高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.080331097831114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical high quality text-to-speech (TTS) systems today use a two-stage
architecture, with a spectrum model stage that generates spectral frames and a
vocoder stage that generates the actual audio. High-quality spectrum models
usually incorporate the encoder-decoder architecture with self-attention or
bi-directional long short-term (BLSTM) units. While these models can produce
high quality speech, they often incur O($L$) increase in both latency and
real-time factor (RTF) with respect to input length $L$. In other words, longer
inputs leads to longer delay and slower synthesis speed, limiting its use in
real-time applications. In this paper, we propose a multi-rate attention
architecture that breaks the latency and RTF bottlenecks by computing a compact
representation during encoding and recurrently generating the attention vector
in a streaming manner during decoding. The proposed architecture achieves high
audio quality (MOS of 4.31 compared to groundtruth 4.48), low latency, and low
RTF at the same time. Meanwhile, both latency and RTF of the proposed system
stay constant regardless of input lengths, making it ideal for real-time
applications.
- Abstract(参考訳): 典型的なTTSシステムでは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージという、2段階のアーキテクチャを採用している。
高品質のスペクトルモデルは通常、エンコーダ・デコーダアーキテクチャを自己アテンションまたは双方向長短短期(BLSTM)ユニットに組み込む。
これらのモデルは高品質な音声を生成することができるが、入力長が$L$である場合、レイテンシーとリアルタイム係数(RTF)の両方でO($L$)が増加する。
言い換えれば、より長い入力は、より長い遅延とより遅い合成速度をもたらし、リアルタイムアプリケーションでの使用を制限する。
本稿では,エンコード中にコンパクト表現を計算し,デコード時にストリーム方式で再帰的にアテンションベクトルを生成することで,レイテンシとrtfボトルネックを解消するマルチレートアテンションアーキテクチャを提案する。
提案アーキテクチャは,低レイテンシ,低RTFを同時に実現し,高音質(4.31MOSは4.48MOS)を実現する。
一方,提案方式のレイテンシとRTFは入力長に関わらず一定であり,リアルタイムアプリケーションに最適である。
関連論文リスト
- RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement [36.10772098876638]
LA-VocEのすべてのコンポーネントを再設計して40msの入力フレームで因果的リアルタイム推論を行うRT-LA-VocEを提案する。
提案アルゴリズムは,すべてのリアルタイムシナリオにおいて,最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:49:23Z) - Cross-layer scheme for low latency multiple description video streaming
over Vehicular Ad-hoc NETworks (VANETs) [2.2124180701409233]
HEVC標準はリアルタイムビデオストリーミングに非常に有望だ。
新しい最先端のビデオ符号化(HEVC)標準は、リアルタイムビデオストリーミングに非常に有望である。
本稿では,車載通信における映像品質を向上させるために,独自のクロスレイヤーシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T14:34:58Z) - FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs [1.8047694351309207]
FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T09:05:17Z) - Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文 参考訳(メタデータ) (2022-12-08T19:38:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - High Quality Streaming Speech Synthesis with Low,
Sentence-Length-Independent Latency [3.119625275101153]
システムは自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと波形生成のためのLPCNetボコーダから構成される。
完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができ、聴取テストによって検証される。
論文 参考訳(メタデータ) (2021-11-17T11:46:43Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。