論文の概要: NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling
- arxiv url: http://arxiv.org/abs/2104.02321v1
- Date: Tue, 6 Apr 2021 06:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:51:36.694182
- Title: NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling
- Title(参考訳): NU-Wave:ニューラルオーディオアップサンプリングのための拡散確率モデル
- Authors: Junhyeok Lee and Seungu Han
- Abstract要約: NU-Waveは、粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルです。
NU-Waveは、信号対雑音比(SNR)、ログスペクトル距離(LSD)、ABXテストの精度で高性能を実現する高品質のオーディオを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce NU-Wave, the first neural audio upsampling model
to produce waveforms of sampling rate 48kHz from coarse 16kHz or 24kHz inputs,
while prior works could generate only up to 16kHz. NU-Wave is the first
diffusion probabilistic model for audio super-resolution which is engineered
based on neural vocoders. NU-Wave generates high-quality audio that achieves
high performance in terms of signal-to-noise ratio (SNR), log-spectral distance
(LSD), and accuracy of the ABX test. In all cases, NU-Wave outperforms the
baseline models despite the substantially smaller model capacity (3.0M
parameters) than baselines (5.4-21%). The audio samples of our model are
available at https://mindslab-ai.github.io/nuwave, and the code will be made
available soon.
- Abstract(参考訳): 本研究では, 粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルであるNU-Waveを紹介する。
nu-waveは、ニューラルボコーダに基づく音声スーパーレゾリューションのための最初の拡散確率モデルである。
nu-waveはsnr(signal-to-noise ratio)、lsd(log-spectral distance)、abxテストの精度で高性能な高品質オーディオを生成する。
すべての場合、NU-Waveはベースライン(5.4-21%)よりもモデル容量(3.0Mパラメータ)がかなり小さいにもかかわらずベースラインモデルより優れている。
私たちのモデルのオーディオサンプルはhttps://mindslab-ai.github.io/nuwaveで入手できます。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling
Rates [0.0]
本稿では,ニューラルオーディオアップサンプリングのための拡散モデルであるNU-Wave 2を紹介する。
様々なサンプリングレートの入力から48kHzの音声信号を単一のモデルで生成する。
NU-Wave 2 は入力のサンプリング率に関係なく高分解能の音声を生成することを実験的に実証した。
論文 参考訳(メタデータ) (2022-06-17T04:40:14Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。