論文の概要: High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling
- arxiv url: http://arxiv.org/abs/2105.09856v1
- Date: Thu, 20 May 2021 16:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:42:43.288022
- Title: High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling
- Title(参考訳): 離散波形モデリングのためのデータ駆動線形予測を用いたマルチバンドウェーブRNNに基づく高忠実・低レイテンシユニバーサルニューラルボコーダ
- Authors: Patrick Lumban Tobing, Tomoki Toda
- Abstract要約: 本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。
提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
- 参考スコア(独自算出の注目度): 38.828260316517536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel high-fidelity and low-latency universal neural
vocoder framework based on multiband WaveRNN with data-driven linear prediction
for discrete waveform modeling (MWDLP). MWDLP employs a coarse-fine bit WaveRNN
architecture for 10-bit mu-law waveform modeling. A sparse gated recurrent unit
with a relatively large size of hidden units is utilized, while the multiband
modeling is deployed to achieve real-time low-latency usage. A novel technique
for data-driven linear prediction (LP) with discrete waveform modeling is
proposed, where the LP coefficients are estimated in a data-driven manner.
Moreover, a novel loss function using short-time Fourier transform (STFT) for
discrete waveform modeling with Gumbel approximation is also proposed. The
experimental results demonstrate that the proposed MWDLP framework generates
high-fidelity synthetic speech for seen and unseen speakers and/or language on
300 speakers training data including clean and noisy/reverberant conditions,
where the number of training utterances is limited to 60 per speaker, while
allowing for real-time low-latency processing using a single core of $\sim\!$
2.1--2.7~GHz CPU with $\sim\!$ 0.57--0.64 real-time factor including
input/output and feature extraction.
- Abstract(参考訳): 本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドウェーブRNNに基づく、新しい高忠実かつ低レイテンシなユニバーサルニューラルボコーダフレームワークを提案する。
MWDLPは10ビットのムラ波形モデリングに粗いビットWaveRNNアーキテクチャを採用している。
比較的大きな隠れ単位を持つスパースゲートリカレントユニットを利用する一方、マルチバンドモデリングはリアルタイム低遅延使用を実現するためにデプロイされる。
離散波形モデリングを用いたデータ駆動線形予測(LP)のための新しい手法を提案し,データ駆動方式でLP係数を推定する。
さらに,ガムベル近似を用いた離散波形モデリングのための短時間フーリエ変換(stft)を用いた新しい損失関数を提案する。
実験の結果、MWDLPフレームワークは、クリーンでノイズの多い/残響な条件を含む300の話者の学習データに対して、高忠実な合成音声を生成することを示し、トレーニング発話の回数は話者あたり60に制限されるとともに、入力・出力・特徴抽出を含む0.57-0.64ドルである$2.1--2.7~GHz CPUの単一コアを用いたリアルタイム低レイテンシ処理を可能にする。
関連論文リスト
- MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。
トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。
資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文 参考訳(メタデータ) (2024-10-02T23:04:57Z) - Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文 参考訳(メタデータ) (2024-08-15T08:34:00Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS [1.8927791081850118]
本稿では、バックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。
このモデルは、WaveRNNデコーダが音声波形を生成するために使用する低分解能メルスペクトル特性を生成する。
論文 参考訳(メタデータ) (2022-06-30T13:29:31Z) - Low-Latency Real-Time Non-Parallel Voice Conversion based on Cyclic
Variational Autoencoder and Multiband WaveRNN with Data-Driven Linear
Prediction [38.828260316517536]
本稿では、周期的変動オートエンコーダ(CycleVAE)とデータ駆動線形予測(MWDLP)を用いたマルチバンドWaveRNNに基づく低遅延リアルタイム(LLRT)非並列音声変換フレームワークを提案する。
提案したフレームワークは高性能なVCを実現し、LLRTをシングルコアの2.1$--2.7$GHz CPUでリアルタイムの0.87$--0.95$、入出力、特徴抽出、フレームシフト10$ms、ウィンドウ長27.5$msで使用可能にする。
論文 参考訳(メタデータ) (2021-05-20T16:06:11Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。