論文の概要: Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2401.10460v1
- Date: Fri, 19 Jan 2024 02:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:09:32.808985
- Title: Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis
- Title(参考訳): 高品質音声合成のための超軽量ニューラル微分DSPヴォコーダ
- Authors: Prabhav Agrawal, Thilo Koehler, Zhiping Xiu, Prashant Serai, Qing He
- Abstract要約: DSPヴォコーダは、過度に滑らかな音響モデル予測を消費するため、音質が低下することが多い。
DSPボコーダと共同最適化された音響モデルを用いた超軽量DSP(DDSP)ボコーダを提案し,声道スペクトルの特徴を抽出せずに学習する。
- 参考スコア(独自算出の注目度): 9.916195285279931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural vocoders model the raw audio waveform and synthesize high-quality
audio, but even the highly efficient ones, like MB-MelGAN and LPCNet, fail to
run real-time on a low-end device like a smartglass. A pure digital signal
processing (DSP) based vocoder can be implemented via lightweight fast Fourier
transforms (FFT), and therefore, is a magnitude faster than any neural vocoder.
A DSP vocoder often gets a lower audio quality due to consuming over-smoothed
acoustic model predictions of approximate representations for the vocal tract.
In this paper, we propose an ultra-lightweight differential DSP (DDSP) vocoder
that uses a jointly optimized acoustic model with a DSP vocoder, and learns
without an extracted spectral feature for the vocal tract. The model achieves
audio quality comparable to neural vocoders with a high average MOS of 4.36
while being efficient as a DSP vocoder. Our C++ implementation, without any
hardware-specific optimization, is at 15 MFLOPS, surpasses MB-MelGAN by 340
times in terms of FLOPS, and achieves a vocoder-only RTF of 0.003 and overall
RTF of 0.044 while running single-threaded on a 2GHz Intel Xeon CPU.
- Abstract(参考訳): ニューラルヴォコーダは生のオーディオ波形をモデル化し、高品質なオーディオを合成するが、MB-MelGANやLPCNetのような高効率なものでさえ、スマートグラスのようなローエンドデバイスでリアルタイムに実行できない。
純粋なデジタル信号処理(DSP)ベースのボコーダは、軽量高速フーリエ変換(FFT)によって実装できるため、どの神経ボコーダよりも高速である。
DSPヴォコーダは、声道の近似表現の過度に平滑な音響モデル予測を使用するため、音質が低下することが多い。
本稿では,dsp vocoderと協調的に最適化した音響モデルを用いて,声道のスペクトル特徴を抽出せずに学習する超軽量差動dsp(ddsp)vocoderを提案する。
このモデルは、DSPボコーダとして効率的でありながら、平均MOSが4.36であるニューラルボコーダに匹敵する音質を実現する。
我々のC++実装はハードウェア固有の最適化を伴わず、15 MFLOPSであり、FLOPSではMB-MelGANを340倍上回り、vocoderのみのRTF0.003、全体的なRTF0.044を達成し、2GHzのIntel Xeon CPU上でシングルスレッドで動作する。
関連論文リスト
- High-Fidelity Music Vocoder using Neural Audio Codecs [18.95453617434051]
DisCoderは、メルスペクトログラムから44.1kHzの高忠実度オーディオを再構成するニューラルヴォコーダである。
DisCoderは、いくつかの客観的メトリクスとMUSHRAリスニングスタディにおいて、音楽合成における最先端のパフォーマンスを達成する。
提案手法は,音声合成における競合性能も示し,普遍的なボコーダとしての可能性を強調した。
論文 参考訳(メタデータ) (2025-02-18T11:25:46Z) - Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP [6.295981052578859]
EMA(Electronic Articulography)のような動脈軌跡は声道フィルタの低次元表現を提供する。
本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質でパラメータ効率のよいVocoderを提案する。
本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
論文 参考訳(メタデータ) (2024-09-04T05:12:15Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。