論文の概要: Improving the expressiveness of neural vocoding with non-affine
Normalizing Flows
- arxiv url: http://arxiv.org/abs/2106.08649v1
- Date: Wed, 16 Jun 2021 09:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:13:57.205445
- Title: Improving the expressiveness of neural vocoding with non-affine
Normalizing Flows
- Title(参考訳): 非アフィン正規化流によるニューラルボコーディングの表現性の向上
- Authors: Adam Gabry\'s, Yunlong Jiao, Viacheslav Klimkov, Daniel Korzekwa,
Roberto Barra-Chicote
- Abstract要約: 改良されたパラレルウェーブネット(PW)による表現的音声ボコーディングの改善
我々は,PW論文が提案する確率密度手順を原論文と比較することにより,確率密度を拡張する。
- 参考スコア(独自算出の注目度): 10.823849173208082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a general enhancement to the Normalizing Flows (NF) used
in neural vocoding. As a case study, we improve expressive speech vocoding with
a revamped Parallel Wavenet (PW). Specifically, we propose to extend the affine
transformation of PW to the more expressive invertible non-affine function. The
greater expressiveness of the improved PW leads to better-perceived signal
quality and naturalness in the waveform reconstruction and text-to-speech (TTS)
tasks. We evaluate the model across different speaking styles on a
multi-speaker, multi-lingual dataset. In the waveform reconstruction task, the
proposed model closes the naturalness and signal quality gap from the original
PW to recordings by $10\%$, and from other state-of-the-art neural vocoding
systems by more than $60\%$. We also demonstrate improvements in objective
metrics on the evaluation test set with L2 Spectral Distance and Cross-Entropy
reduced by $3\%$ and $6\unicode{x2030}$ comparing to the affine PW.
Furthermore, we extend the probability density distillation procedure proposed
by the original PW paper, so that it works with any non-affine invertible and
differentiable function.
- Abstract(参考訳): 本稿では,ニューラルボコーディングにおける正規化フロー(NF)の一般化を提案する。
事例研究として,改良されたパラレルウェーブネット(pw)を用いた表現型音声ボコーディングの改善を行った。
具体的には、pw のアフィン変換をより表現力のある可逆非アフィン関数に拡張する。
改良されたPWの表現性が向上すると、波形再構成やTTS(text-to-speech)タスクの信号品質と自然性が向上する。
マルチ話者・多言語データセットを用いて,様々な話し方でモデルを評価した。
波形再構成タスクでは、提案モデルにより、元のPWから記録への自然性と信号品質のギャップを10\%$で、他の最先端のニューラルヴォコーディングシステムから60\%$で閉じる。
また、l2スペクトル距離とクロスエントロピーを3\%$と6\unicode{x2030}$でアフィンpwと比較した評価テストセットにおける客観的指標の改善を示す。
さらに,本論文で提案した確率密度蒸留法を拡張し,非アフィン可逆かつ微分可能な機能で機能するようにした。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis [3.6159128762538018]
フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:45:01Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - SEOFP-NET: Compression and Acceleration of Deep Neural Networks for
Speech Enhancement Using Sign-Exponent-Only Floating-Points [29.379647592320527]
モデルサイズを圧縮し,音声強調のための推論時間を高速化するために,新しい手話のみ浮動小数点ネットワーク(SEOFP-NET)を提案する。
提案手法は,訓練中の単一精度浮動小数点パラメータの分数ビットを定量化することにより,ディープニューラルネットワーク(DNN)に基づく音声強調モデルのサイズを圧縮する。
実験結果から,SEOFP-NETモデルのサイズを81.249%まで圧縮できることがわかった。
論文 参考訳(メタデータ) (2021-11-08T12:57:41Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。