論文の概要: NU-GAN: High resolution neural upsampling with GAN
- arxiv url: http://arxiv.org/abs/2010.11362v1
- Date: Thu, 22 Oct 2020 01:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:04:14.222795
- Title: NU-GAN: High resolution neural upsampling with GAN
- Title(参考訳): NU-GAN:GANを用いた高分解能神経アップサンプリング
- Authors: Rithesh Kumar, Kundan Kumar, Vicki Anand, Yoshua Bengio, Aaron
Courville
- Abstract要約: NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
- 参考スコア(独自算出の注目度): 60.02736450639215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose NU-GAN, a new method for resampling audio from
lower to higher sampling rates (upsampling). Audio upsampling is an important
problem since productionizing generative speech technology requires operating
at high sampling rates. Such applications use audio at a resolution of 44.1 kHz
or 48 kHz, whereas current speech synthesis methods are equipped to handle a
maximum of 24 kHz resolution. NU-GAN takes a leap towards solving audio
upsampling as a separate component in the text-to-speech (TTS) pipeline by
leveraging techniques for audio generation using GANs. ABX preference tests
indicate that our NU-GAN resampler is capable of resampling 22 kHz to 44.1 kHz
audio that is distinguishable from original audio only 7.4% higher than random
chance for single speaker dataset, and 10.8% higher than chance for
multi-speaker dataset.
- Abstract(参考訳): 本稿では,低サンプリングレートから高サンプリングレート (アップサンプリング) までの音声再サンプリング手法であるNU-GANを提案する。
生成音声技術の生成には高いサンプリングレートで運用する必要があるため,オーディオアップサンプリングは重要な問題である。
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
NU-GANは、GANを用いた音声生成技術を活用することにより、テキスト音声合成(TTS)パイプラインの別なコンポーネントとして、オーディオアップサンプリングの解決に向けて飛躍的に進んでいる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
関連論文リスト
- Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - AudioSR: Versatile Audio Super-resolution at Scale [32.36683443201372]
本稿では,多目的オーディオの高解像度化が可能な拡散型生成モデルであるAudioSRを提案する。
具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を24kHzの高解像度オーディオ信号にアップサンプリングすることができる。
論文 参考訳(メタデータ) (2023-09-13T21:00:09Z) - NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling
Rates [0.0]
本稿では,ニューラルオーディオアップサンプリングのための拡散モデルであるNU-Wave 2を紹介する。
様々なサンプリングレートの入力から48kHzの音声信号を単一のモデルで生成する。
NU-Wave 2 は入力のサンプリング率に関係なく高分解能の音声を生成することを実験的に実証した。
論文 参考訳(メタデータ) (2022-06-17T04:40:14Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling [0.0]
NU-Waveは、粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルです。
NU-Waveは、信号対雑音比(SNR)、ログスペクトル距離(LSD)、ABXテストの精度で高性能を実現する高品質のオーディオを生成します。
論文 参考訳(メタデータ) (2021-04-06T06:52:53Z) - Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis [47.30453049606897]
得られたオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
また16kHzから24kHzのサンプリングレートでリスナーが識別でき、WaveRNNはWaveNetに匹敵する品質の出力波形を生成する。
論文 参考訳(メタデータ) (2020-11-10T00:19:04Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。