論文の概要: Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer
- arxiv url: http://arxiv.org/abs/2006.10317v1
- Date: Thu, 18 Jun 2020 07:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:35:32.947537
- Title: Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer
- Title(参考訳): 敵対的に訓練されたマルチシンガーシーケンスツーシーケンス歌唱シンセサイザー
- Authors: Jie Wu, Jian Luan
- Abstract要約: 我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
- 参考スコア(独自算出の注目度): 11.598416444452619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a high quality singing synthesizer that is able to model
a voice with limited available recordings. Based on the sequence-to-sequence
singing model, we design a multi-singer framework to leverage all the existing
singing data of different singers. To attenuate the issue of musical score
unbalance among singers, we incorporate an adversarial task of singer
classification to make encoder output less singer dependent. Furthermore, we
apply multiple random window discriminators (MRWDs) on the generated acoustic
features to make the network be a GAN. Both objective and subjective
evaluations indicate that the proposed synthesizer can generate higher quality
singing voice than baseline (4.12 vs 3.53 in MOS). Especially, the articulation
of high-pitched vowels is significantly enhanced.
- Abstract(参考訳): 本稿では,声質に制限のある音声をモデル化できる高品質な歌唱シンセサイザーを提案する。
シーケンス・ツー・シーケンスの歌唱モデルに基づいて、異なる歌手の既存の歌唱データをすべて活用するマルチシンガー・フレームワークを設計する。
歌手間での楽譜の不均衡を解消するため,エンコーダの出力依存を減らすために,歌手分類の逆タスクを取り入れた。
さらに,生成した音響特徴に複数のランダム窓判別器(mrwds)を適用し,ネットワークをganとする。
主観的評価と主観的評価の両方により,提案したシンセサイザーはベースライン(MOSでは4.12対3.53)よりも高品質な歌声を生成できることが示された。
特に、高ピッチ母音の明瞭度が著しく向上する。
関連論文リスト
- ConSinger: Efficient High-Fidelity Singing Voice Generation with Minimal Steps [4.319804315515349]
最小ステップで高忠実度な歌声合成を実現するために,一貫性モデルであるConSingerに基づく歌声合成手法を提案する。
実験の結果,ConSingerは生成速度と品質の点で,ベースラインモデルと非常に競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-20T09:32:03Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。