論文の概要: XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis
System
- arxiv url: http://arxiv.org/abs/2006.06261v1
- Date: Thu, 11 Jun 2020 09:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:55:59.919304
- Title: XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis
System
- Title(参考訳): XiaoiceSing:高品質で総合的な歌声合成システム
- Authors: Peiling Lu, Jie Wu, Jian Luan, Xu Tan, Li Zhou
- Abstract要約: XiaoiceSingは、スペクトル、F0、持続時間モデリングのための統合ネットワークを利用する歌声合成システムである。
XiaoiceSingは音質1.44 MOS、発音精度1.18、自然性1.38で畳み込みニューラルネットワークのベースラインシステムを上回っている。
- 参考スコア(独自算出の注目度): 31.283081762312964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents XiaoiceSing, a high-quality singing voice synthesis
system which employs an integrated network for spectrum, F0 and duration
modeling. We follow the main architecture of FastSpeech while proposing some
singing-specific design: 1) Besides phoneme ID and position encoding, features
from musical score (e.g.note pitch and length) are also added. 2) To attenuate
off-key issues, we add a residual connection in F0 prediction. 3) In addition
to the duration loss of each phoneme, the duration of all the phonemes in a
musical note is accumulated to calculate the syllable duration loss for rhythm
enhancement. Experiment results show that XiaoiceSing outperforms the baseline
system of convolutional neural networks by 1.44 MOS on sound quality, 1.18 on
pronunciation accuracy and 1.38 on naturalness respectively. In two A/B tests,
the proposed F0 and duration modeling methods achieve 97.3% and 84.3%
preference rate over baseline respectively, which demonstrates the overwhelming
advantages of XiaoiceSing.
- Abstract(参考訳): 本稿では、スペクトル、F0、持続時間モデリングのための統合ネットワークを用いた高品質な歌声合成システムXiaoiceSingを提案する。
我々はFastSpeechの主要なアーキテクチャに従い、歌唱特有の設計を提案している。
1)音素idと位置符号化に加えて、楽譜(音高や長さなど)の特徴も付加される。
2) オフキー問題を軽減するために, F0 予測に残差接続を加える。
3)各音素の持続時間損失に加えて,音符中のすべての音素の持続時間を蓄積し,リズム強調のための音節持続時間損失を算出する。
実験の結果,畳み込みニューラルネットワークのベースラインシステムは音質が1.44 mos,発音精度が1.18 mos,自然性が1.38 mosであった。
2つのA/B試験において、提案したF0と持続時間モデリング法はそれぞれ97.3%と84.3%の優先レートを達成し、XiaoiceSingの圧倒的な優位性を示している。
関連論文リスト
- Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice
Enhancement [8.782080886602145]
歌声強調のための新しい時間周波数ニューラルネットワーク(MBTFNet)を提案する。
MBTFNetは、バックグラウンド音楽、ノイズ、さらにはボーカルを歌唱録音から削除する。
実験により,提案モデルがいくつかの最先端SEモデルとMSSモデルより有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-10-06T16:44:47Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文 参考訳(メタデータ) (2022-03-21T06:42:44Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。