論文の概要: Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control
- arxiv url: http://arxiv.org/abs/2111.09146v1
- Date: Wed, 17 Nov 2021 14:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:18:46.681680
- Title: Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control
- Title(参考訳): 音素レベル韻律制御に基づくラッピング歌声合成
- Authors: Konstantinos Markopoulos, Nikolaos Ellinas, Alexandra Vioni, Myrsini
Christidou, Panos Kakoulidis, Georgios Vamvoukakis, Georgia Maniati, June Sig
Sung, Hyoungmin Park, Pirros Tsiakoulis and Aimilios Chalamandaris
- Abstract要約: 任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 47.33830090185952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a text-to-rapping/singing system is introduced, which can be
adapted to any speaker's voice. It utilizes a Tacotron-based multispeaker
acoustic model trained on read-only speech data and which provides prosody
control at the phoneme level. Dataset augmentation and additional prosody
manipulation based on traditional DSP algorithms are also investigated. The
neural TTS model is fine-tuned to an unseen speaker's limited recordings,
allowing rapping/singing synthesis with the target's speaker voice. The
detailed pipeline of the system is described, which includes the extraction of
the target pitch and duration values from an a capella song and their
conversion into target speaker's valid range of notes before synthesis. An
additional stage of prosodic manipulation of the output via WSOLA is also
investigated for better matching the target duration values. The synthesized
utterances can be mixed with an instrumental accompaniment track to produce a
complete song. The proposed system is evaluated via subjective listening tests
as well as in comparison to an available alternate system which also aims to
produce synthetic singing voice from read-only training data. Results show that
the proposed approach can produce high quality rapping/singing voice with
increased naturalness.
- Abstract(参考訳): 本稿では,任意の話者の声に適応可能なテキスト・ラッピング・歌唱システムを提案する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを使用し、音素レベルで韻律制御を行う。
また,従来のDSPアルゴリズムに基づくデータセット拡張と韻律操作についても検討した。
ニューラルTSモデルは、未確認の話者の限られた録音に微調整され、ターゲットの話者の声によるラッピング/歌唱合成を可能にする。
システムの詳細パイプラインは、カペラ歌からの目標ピッチと持続時間値の抽出と、合成前のターゲット話者の有効な音符の範囲への変換を含む。
また、WSOLAによる出力の韻律的操作のさらなる段階も、目標期間値の整合性を改善するために検討した。
合成音声は、楽器伴奏トラックと混合して完全な歌を生成することができる。
提案システムは,読み上げ専用学習データから合成歌唱音声を生成することを目的とした代替システムと比較して,主観的聴取テストにより評価する。
提案手法は,自然性を高めた高品質なラッピング/歌唱音声を生成できることを示す。
関連論文リスト
- MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance [14.22941848955693]
MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
論文 参考訳(メタデータ) (2024-06-10T01:47:52Z) - Creative Text-to-Audio Generation via Synthesizer Programming [1.1203110769488043]
78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。
提案手法であるCTAGは、テキストプロンプトの高品質なオーディオレンダリングを生成するために、シンセサイザーのパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-01T04:08:31Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer [6.29475963948119]
本稿では,WORLDシンセサイザーを試作し,エンド・ツー・エンドのオーディオ・スタイル・トランスファー・タスクでの利用を実証する。
ベースライン微分可能シンセサイザーはモデルパラメータを持たないが、十分な品質合成が得られる。
別の微分可能なアプローチでは、ソーススペクトルの抽出を直接考慮し、自然性を改善することができる。
論文 参考訳(メタデータ) (2022-08-15T15:48:36Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。