論文の概要: FBWave: Efficient and Scalable Neural Vocoders for Streaming
Text-To-Speech on the Edge
- arxiv url: http://arxiv.org/abs/2011.12985v1
- Date: Wed, 25 Nov 2020 19:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 04:03:37.152942
- Title: FBWave: Efficient and Scalable Neural Vocoders for Streaming
Text-To-Speech on the Edge
- Title(参考訳): FBWave:エッジ上のテキスト音声ストリーミングのための効率的でスケーラブルなニューラルヴォコーダ
- Authors: Bichen Wu, Qing He, Peizhao Zhang, Thilo Koehler, Kurt Keutzer, Peter
Vajda
- Abstract要約: 我々は、効率的でスケーラブルなニューラルボコーダ群であるFBWaveを提案する。
FBWaveは、自己回帰モデルと非自己回帰モデルの利点を組み合わせた、ハイブリッドフローベースの生成モデルである。
実験の結果,FBWave は WaveRNN と同様の音質を達成でき,MAC を 40 倍削減できることがわかった。
- 参考スコア(独自算出の注目度): 49.85380252780985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays more and more applications can benefit from edge-based
text-to-speech (TTS). However, most existing TTS models are too computationally
expensive and are not flexible enough to be deployed on the diverse variety of
edge devices with their equally diverse computational capacities. To address
this, we propose FBWave, a family of efficient and scalable neural vocoders
that can achieve optimal performance-efficiency trade-offs for different edge
devices. FBWave is a hybrid flow-based generative model that combines the
advantages of autoregressive and non-autoregressive models. It produces high
quality audio and supports streaming during inference while remaining highly
computationally efficient. Our experiments show that FBWave can achieve similar
audio quality to WaveRNN while reducing MACs by 40x. More efficient variants of
FBWave can achieve up to 109x fewer MACs while still delivering acceptable
audio quality. Audio demos are available at
https://bichenwu09.github.io/vocoder_demos.
- Abstract(参考訳): 今日では、エッジベースのテキスト音声(TTS)の恩恵を受けるアプリケーションがますます増えている。
しかし、既存のttsモデルの多くは計算コストが高く、同じくらい多様な計算能力を持つ多様なエッジデバイスにデプロイできるほど柔軟ではない。
そこで本研究では,異なるエッジデバイスに対して最適なパフォーマンス効率のトレードオフを実現する,効率的でスケーラブルなニューラルネットワークボコーダのファミリであるfbwaveを提案する。
fbwaveは、自己回帰モデルと非自己回帰モデルの利点を組み合わせたハイブリッドフローベースの生成モデルである。
高品質なオーディオを生成し、推論中に高い計算効率を維持しながらストリーミングをサポートする。
実験の結果,FBWave は WaveRNN と同様の音質を実現でき,MAC を 40 倍削減できることがわかった。
FBWaveのより効率的な変種は最大109倍のMACを達成できるが、音質は許容できる。
オーディオデモはhttps://bichenwu09.github.io/vocoder_demosで見ることができる。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis [2.4975981795360847]
WaveGlowのような非自己回帰型ニューラルボコーダは、音声信号のモデリングに関して、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダである。
メモリフットプリントが小さく,高忠実度オーディオをリアルタイムに生成できるFlowVocoderを提案する。
論文 参考訳(メタデータ) (2021-09-27T06:52:55Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。