論文の概要: Universal Neural Vocoding with Parallel WaveNet
- arxiv url: http://arxiv.org/abs/2102.01106v1
- Date: Mon, 1 Feb 2021 19:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:36:56.544540
- Title: Universal Neural Vocoding with Parallel WaveNet
- Title(参考訳): 並列ウェーブネットを用いたUniversal Neural Vocoding
- Authors: Yunlong Jiao, Adam Gabrys, Georgi Tinchev, Bartosz Putrycz, Daniel
Korzekwa, Viacheslav Klimkov
- Abstract要約: 本稿では、Parallel WaveNetをベースとした普遍的なニューラルボコーダと、Audioと呼ばれる追加のコンディショニングネットワークを提案する。
我々のユニバーサルヴォコーダは、幅広いユースケースでリアルタイムな高品質な音声合成を提供する。
- 参考スコア(独自算出の注目度): 8.6698425961311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a universal neural vocoder based on Parallel WaveNet, with an
additional conditioning network called Audio Encoder. Our universal vocoder
offers real-time high-quality speech synthesis on a wide range of use cases. We
tested it on 43 internal speakers of diverse age and gender, speaking 20
languages in 17 unique styles, of which 7 voices and 5 styles were not exposed
during training. We show that the proposed universal vocoder significantly
outperforms speaker-dependent vocoders overall. We also show that the proposed
vocoder outperforms several existing neural vocoder architectures in terms of
naturalness and universality. These findings are consistent when we further
test on more than 300 open-source voices.
- Abstract(参考訳): 本稿では,パラレルウェーブネットに基づくユニバーサルニューラルボコーダと,オーディオエンコーダと呼ばれる追加条件付きネットワークを提案する。
われわれのuniversal vocoderは、幅広いユースケースでリアルタイムの高品質な音声合成を提供する。
17のユニークなスタイルで20の言語を話しました。そのうち7つの声と5つのスタイルはトレーニング中に公開されていませんでした。
提案するユニバーサルボコーダは,話者依存型ボコーダを圧倒的に上回っている。
また,提案するボコーダは,自然性と普遍性の観点から,既存のニューラルボコーダアーキテクチャよりも優れていることを示す。
これらの発見は、300以上のオープンソース音声のさらなるテストにおいて一貫しています。
関連論文リスト
- A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - VocBench: A Neural Vocoder Benchmark for Speech Synthesis [36.94062576597112]
本稿では,最先端のニューラルボコーダの性能をベンチマークするフレームワークであるVocBenchを紹介する。
VocBenchは、共有環境で異なる神経ボコーダを評価するために、体系的な研究を使用している。
以上の結果から, このフレームワークは, 各ボコーダに対して, 合成試料の競争効率と品質を示すことができることがわかった。
論文 参考訳(メタデータ) (2021-12-06T15:09:57Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。