論文の概要: MSR-NV: Neural Vocoder Using Multiple Sampling Rates
- arxiv url: http://arxiv.org/abs/2109.13714v3
- Date: Fri, 24 Jun 2022 01:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 07:37:18.776382
- Title: MSR-NV: Neural Vocoder Using Multiple Sampling Rates
- Title(参考訳): MSR-NV:多重サンプリングレートを用いたニューラルヴォコーダ
- Authors: Kentaro Mitsui, Kei Sawada
- Abstract要約: 単一ニューラルボコーダ(NV)における多重サンプリングレートの処理法を提案する。
低サンプリングレートから始まる波形を段階的に生成することにより、MSR-NVは各周波数帯域の特性を効率的に学習し、複数のサンプリングレートで高品質な音声を合成することができる。
- 参考スコア(独自算出の注目度): 4.030676736893601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of neural vocoders (NVs) has resulted in the high-quality and
fast generation of waveforms. However, conventional NVs target a single
sampling rate and require re-training when applied to different sampling rates.
A suitable sampling rate varies from application to application due to the
trade-off between speech quality and generation speed. In this study, we
propose a method to handle multiple sampling rates in a single NV, called the
MSR-NV. By generating waveforms step-by-step starting from a low sampling rate,
MSR-NV can efficiently learn the characteristics of each frequency band and
synthesize high-quality speech at multiple sampling rates. It can be regarded
as an extension of the previously proposed NVs, and in this study, we extend
the structure of Parallel WaveGAN (PWG). Experimental evaluation results
demonstrate that the proposed method achieves remarkably higher subjective
quality than the original PWG trained separately at 16, 24, and 48 kHz, without
increasing the inference time. We also show that MSR-NV can leverage speech
with lower sampling rates to further improve the quality of the synthetic
speech.
- Abstract(参考訳): ニューラルボコーダ(nvs)の開発は、波形の高品質で高速な生成につながった。
しかし、従来のNVは単一のサンプリングレートをターゲットにしており、異なるサンプリングレートに適用した場合に再トレーニングが必要である。
適切なサンプリングレートは、音声品質と生成速度のトレードオフにより、アプリケーションによって異なる。
本研究では,MSR-NVと呼ばれる単一NVにおいて,複数のサンプリングレートを処理する手法を提案する。
低サンプリングレートから始まる波形を段階的に生成することにより、MSR-NVは各周波数帯域の特性を効率的に学習し、複数のサンプリングレートで高品質な音声を合成することができる。
従来提案されていたNVの拡張と見なすことができ、本研究ではParallel WaveGAN(PWG)の構造を拡張する。
実験評価の結果, 推定時間を増加させることなく, 16, 24, 48khzで個別に訓練したpwgよりも極めて高い主観的品質が得られることがわかった。
また,MSR-NVはより低いサンプリングレートで音声を活用でき,合成音声の品質をさらに向上できることを示す。
関連論文リスト
- Multi-frequency wavefield solutions for variable velocity models using meta-learning enhanced low-rank physics-informed neural network [3.069335774032178]
物理インフォームドニューラルネットワーク(PINN)は、複雑な速度モデルにおける多周波波場をモデル化する上で大きな課題に直面している。
本稿では,低ランクパラメータ化とメタラーニング,周波数埋め込みを組み合わせた新しいフレームワークMeta-LRPINNを提案する。
数値実験により,Meta-LRPINNはベースライン法に比べて高速に収束し,精度が高いことがわかった。
論文 参考訳(メタデータ) (2025-02-02T20:12:39Z) - Multi-scale Generative Modeling for Fast Sampling [38.570968785490514]
ウェーブレット領域では、特に高周波係数のスパース表現が独特な課題に直面している。
本稿では、低周波帯と高周波帯を扱うための異なる戦略を用いるウェーブレット領域におけるマルチスケール生成モデルを提案する。
理論的解析と実験結果により,本モデルは性能を著しく向上させ,トレーニング可能なパラメータの数,サンプリングステップ,時間を削減する。
論文 参考訳(メタデータ) (2024-11-14T11:01:45Z) - Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T06:52:00Z) - Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文 参考訳(メタデータ) (2024-08-15T08:34:00Z) - On Optimal Sampling for Learning SDF Using MLPs Equipped with Positional Encoding [76.78321723602636]
我々は、好ましくない副作用を伴わずに、正確な暗黙の場を学習するための適切なサンプリング率を決定するツールを考案した。
PEを具備したPEは、PE層の最高周波数成分よりも内在周波数がはるかに高いことが観察された。
SDFフィッティングの設定において,この推奨サンプリングレートは正確なフィッティング結果の確保に十分であることを示す。
論文 参考訳(メタデータ) (2024-01-02T10:51:52Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Reparameterized Sampling for Generative Adversarial Networks [71.30132908130581]
本稿では,マルコフ連鎖をジェネレータの潜在空間に再配置することで,一般依存型提案を可能にする新しいサンプリング手法REP-GANを提案する。
実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。
論文 参考訳(メタデータ) (2021-07-01T10:34:55Z) - Noise Homogenization via Multi-Channel Wavelet Filtering for
High-Fidelity Sample Generation in GANs [47.92719758687014]
GAN(Generative Adversarial Networks)のための新しいマルチチャネルウェーブレットに基づくフィルタリング手法を提案する。
ジェネレータにウェーブレットのデコンボリューション層を埋め込むと、結果のGANであるWaveletGANがウェーブレットのデコンボリューションを利用して複数のチャネルによるフィルタリングを学習する。
オープンGANベンチマークツールを用いて,Fashion-MNIST,KMNIST,SVHNデータセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2020-05-14T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。