論文の概要: MSR-NV: Neural Vocoder Using Multiple Sampling Rates
- arxiv url: http://arxiv.org/abs/2109.13714v3
- Date: Fri, 24 Jun 2022 01:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 07:37:18.776382
- Title: MSR-NV: Neural Vocoder Using Multiple Sampling Rates
- Title(参考訳): MSR-NV:多重サンプリングレートを用いたニューラルヴォコーダ
- Authors: Kentaro Mitsui, Kei Sawada
- Abstract要約: 単一ニューラルボコーダ(NV)における多重サンプリングレートの処理法を提案する。
低サンプリングレートから始まる波形を段階的に生成することにより、MSR-NVは各周波数帯域の特性を効率的に学習し、複数のサンプリングレートで高品質な音声を合成することができる。
- 参考スコア(独自算出の注目度): 4.030676736893601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of neural vocoders (NVs) has resulted in the high-quality and
fast generation of waveforms. However, conventional NVs target a single
sampling rate and require re-training when applied to different sampling rates.
A suitable sampling rate varies from application to application due to the
trade-off between speech quality and generation speed. In this study, we
propose a method to handle multiple sampling rates in a single NV, called the
MSR-NV. By generating waveforms step-by-step starting from a low sampling rate,
MSR-NV can efficiently learn the characteristics of each frequency band and
synthesize high-quality speech at multiple sampling rates. It can be regarded
as an extension of the previously proposed NVs, and in this study, we extend
the structure of Parallel WaveGAN (PWG). Experimental evaluation results
demonstrate that the proposed method achieves remarkably higher subjective
quality than the original PWG trained separately at 16, 24, and 48 kHz, without
increasing the inference time. We also show that MSR-NV can leverage speech
with lower sampling rates to further improve the quality of the synthetic
speech.
- Abstract(参考訳): ニューラルボコーダ(nvs)の開発は、波形の高品質で高速な生成につながった。
しかし、従来のNVは単一のサンプリングレートをターゲットにしており、異なるサンプリングレートに適用した場合に再トレーニングが必要である。
適切なサンプリングレートは、音声品質と生成速度のトレードオフにより、アプリケーションによって異なる。
本研究では,MSR-NVと呼ばれる単一NVにおいて,複数のサンプリングレートを処理する手法を提案する。
低サンプリングレートから始まる波形を段階的に生成することにより、MSR-NVは各周波数帯域の特性を効率的に学習し、複数のサンプリングレートで高品質な音声を合成することができる。
従来提案されていたNVの拡張と見なすことができ、本研究ではParallel WaveGAN(PWG)の構造を拡張する。
実験評価の結果, 推定時間を増加させることなく, 16, 24, 48khzで個別に訓練したpwgよりも極めて高い主観的品質が得られることがわかった。
また,MSR-NVはより低いサンプリングレートで音声を活用でき,合成音声の品質をさらに向上できることを示す。
関連論文リスト
- RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [4.767507323461407]
本稿では,Mel-spectrograms から高忠実度音声波形を再構成する新しいマルチバンド整流流法 RFWave を提案する。
RFWaveは例外的な再構成品質と優れた計算効率を実現し、リアルタイムで90倍の速さで音声を生成することができる。
論文 参考訳(メタデータ) (2024-03-08T03:16:47Z) - On Optimal Sampling for Learning SDF Using MLPs Equipped with Positional
Encoding [79.67071790034609]
我々は、好ましくない副作用を伴わずに、正確な暗黙の場を学習するための適切なサンプリング率を決定するツールを考案した。
PEを具備したPEは、PE層の最高周波数成分よりも内在周波数がはるかに高いことが観察された。
SDFフィッティングの設定において,この推奨サンプリングレートは正確なフィッティング結果の確保に十分であることを示す。
論文 参考訳(メタデータ) (2024-01-02T10:51:52Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling
Rates [0.0]
本稿では,ニューラルオーディオアップサンプリングのための拡散モデルであるNU-Wave 2を紹介する。
様々なサンプリングレートの入力から48kHzの音声信号を単一のモデルで生成する。
NU-Wave 2 は入力のサンプリング率に関係なく高分解能の音声を生成することを実験的に実証した。
論文 参考訳(メタデータ) (2022-06-17T04:40:14Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Reparameterized Sampling for Generative Adversarial Networks [71.30132908130581]
本稿では,マルコフ連鎖をジェネレータの潜在空間に再配置することで,一般依存型提案を可能にする新しいサンプリング手法REP-GANを提案する。
実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。
論文 参考訳(メタデータ) (2021-07-01T10:34:55Z) - Noise Homogenization via Multi-Channel Wavelet Filtering for
High-Fidelity Sample Generation in GANs [47.92719758687014]
GAN(Generative Adversarial Networks)のための新しいマルチチャネルウェーブレットに基づくフィルタリング手法を提案する。
ジェネレータにウェーブレットのデコンボリューション層を埋め込むと、結果のGANであるWaveletGANがウェーブレットのデコンボリューションを利用して複数のチャネルによるフィルタリングを学習する。
オープンGANベンチマークツールを用いて,Fashion-MNIST,KMNIST,SVHNデータセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2020-05-14T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。