論文の概要: NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
- arxiv url: http://arxiv.org/abs/2210.15987v1
- Date: Fri, 28 Oct 2022 08:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:54:21.166909
- Title: NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
- Title(参考訳): NNSVS:ニューラルネットワークによる歌声合成ツールキット
- Authors: Ryuichi Yamamoto, Reo Yoneyama, Tomoki Toda
- Abstract要約: NNSVSは、ニューラルネットワークに基づく歌声合成研究のためのオープンソースソフトウェアである。
Sinsyは、歌声合成研究におけるオープンソースのパイオニアだ。
- 参考スコア(独自算出の注目度): 30.894603855905828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the design of NNSVS, an open-source software for neural
network-based singing voice synthesis research. NNSVS is inspired by Sinsy, an
open-source pioneer in singing voice synthesis research, and provides many
additional features such as multi-stream models, autoregressive fundamental
frequency models, and neural vocoders. Furthermore, NNSVS provides extensive
documentation and numerous scripts to build complete singing voice synthesis
systems. Experimental results demonstrate that our best system significantly
outperforms our reproduction of Sinsy and other baseline systems. The toolkit
is available at https://github.com/nnsvs/nnsvs.
- Abstract(参考訳): 本稿では,ニューラルネットワークを用いた歌声合成研究のためのオープンソースソフトウェアであるNSVSの設計について述べる。
NNSVSは、歌声合成研究におけるオープンソースのパイオニアであるSinsyにインスパイアされ、マルチストリームモデル、自己回帰基本周波数モデル、ニューラルヴォコーダなど多くの機能を提供している。
さらにnnsvsは、完全な歌声合成システムを構築するための広範なドキュメントと多数のスクリプトを提供する。
実験結果から,Sinsyおよび他のベースラインシステムの再生において,最良のシステムは著しく優れていた。
ツールキットはhttps://github.com/nnsvs/nnsvsで入手できる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文 参考訳(メタデータ) (2022-03-21T06:42:44Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - An Empirical Study on End-to-End Singing Voice Synthesis with
Encoder-Decoder Architectures [11.440111473570196]
歌唱音声合成を実現するために,エンコーダ・デコーダニューラルモデルと多数のボコーダを用いる。
本研究は,音声データと音声情報,歌詞,ビート情報を用いて,モデルが訓練可能であることを示す実験である。
論文 参考訳(メタデータ) (2021-08-06T08:51:16Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。