論文の概要: NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling
Rates
- arxiv url: http://arxiv.org/abs/2206.08545v1
- Date: Fri, 17 Jun 2022 04:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 15:12:30.169306
- Title: NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling
Rates
- Title(参考訳): nu-wave 2: 様々なサンプリングレートのための汎用ニューラルオーディオアップサンプリングモデル
- Authors: Seungu Han, Junhyeok Lee
- Abstract要約: 本稿では,ニューラルオーディオアップサンプリングのための拡散モデルであるNU-Wave 2を紹介する。
様々なサンプリングレートの入力から48kHzの音声信号を単一のモデルで生成する。
NU-Wave 2 は入力のサンプリング率に関係なく高分解能の音声を生成することを実験的に実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventionally, audio super-resolution models fixed the initial and the
target sampling rates, which necessitate the model to be trained for each pair
of sampling rates. We introduce NU-Wave 2, a diffusion model for neural audio
upsampling that enables the generation of 48 kHz audio signals from inputs of
various sampling rates with a single model. Based on the architecture of
NU-Wave, NU-Wave 2 uses short-time Fourier convolution (STFC) to generate
harmonics to resolve the main failure modes of NU-Wave, and incorporates
bandwidth spectral feature transform (BSFT) to condition the bandwidths of
inputs in the frequency domain. We experimentally demonstrate that NU-Wave 2
produces high-resolution audio regardless of the sampling rate of input while
requiring fewer parameters than other models. The official code and the audio
samples are available at https://mindslab-ai.github.io/nuwave2.
- Abstract(参考訳): 従来、オーディオ超解像モデルは初期値と目標値のサンプリングレートを固定していた。
単一モデルを用いたサンプリングレートの入力から48kHzの音声信号を生成可能な,ニューラルオーディオアップサンプリング用拡散モデルであるNU-Wave 2を提案する。
NU-Waveのアーキテクチャに基づいて、NU-Wave 2は、短時間のフーリエ畳み込み(STFC)を使用して、NU-Waveの主な障害モードを解決するためにハーモニクスを生成し、周波数領域における入力の帯域幅を条件に帯域スペクトル特徴変換(BSFT)を組み込む。
実験により,nu-wave 2は入力のサンプリング速度に関わらず,他のモデルに比べてパラメータの少ない高分解能オーディオを生成することを実証した。
公式コードとオーディオサンプルは、https://mindslab-ai.github.io/nuwave2で入手できる。
関連論文リスト
- Resampling Filter Design for Multirate Neural Audio Effect Processing [9.149661171430257]
ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。
カイザー窓FIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2025-01-30T16:44:49Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling [0.0]
NU-Waveは、粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルです。
NU-Waveは、信号対雑音比(SNR)、ログスペクトル距離(LSD)、ABXテストの精度で高性能を実現する高品質のオーディオを生成します。
論文 参考訳(メタデータ) (2021-04-06T06:52:53Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。