論文の概要: Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence
- arxiv url: http://arxiv.org/abs/2509.07038v1
- Date: Mon, 08 Sep 2025 06:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.045082
- Title: Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence
- Title(参考訳): 音素レベルエネルギー系列を用いた歌声合成
- Authors: Yerin Ryu, Inseop Shin, Chanwoo Kim,
- Abstract要約: 制御可能な歌声合成(SVS)は,ユーザの意図を反映した表現的な歌声を生成することを目的としている。
本研究では,音楽表現に不可欠な動的制御-時間的声質変化に着目し,SVSモデルを地中構造スペクトルから抽出したエネルギー系列に明示的に条件付けすることによって,この問題に対処する。
- 参考スコア(独自算出の注目度): 4.0913617519821255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable Singing Voice Synthesis (SVS) aims to generate expressive singing voices reflecting user intent. While recent SVS systems achieve high audio quality, most rely on probabilistic modeling, limiting precise control over attributes such as dynamics. We address this by focusing on dynamic control--temporal loudness variation essential for musical expressiveness--and explicitly condition the SVS model on energy sequences extracted from ground-truth spectrograms, reducing annotation costs and improving controllability. We also propose a phoneme-level energy sequence for user-friendly control. To the best of our knowledge, this is the first attempt enabling user-driven dynamics control in SVS. Experiments show our method achieves over 50% reduction in mean absolute error of energy sequences for phoneme-level inputs compared to baseline and energy-predictor models, without compromising synthesis quality.
- Abstract(参考訳): 制御可能な歌声合成(SVS)は,ユーザの意図を反映した表現的な歌声を生成することを目的としている。
最近のSVSシステムは高い音質を実現するが、ほとんどが確率的モデリングに依存しており、ダイナミックスのような属性の正確な制御を制限している。
そこで本稿では, 音質表現に不可欠な動的制御-時間的音質変化に着目し, SVSモデルを地中構造スペクトルから抽出したエネルギー系列に明示的に条件付けし, アノテーションのコストを低減し, 可制御性の向上を図る。
また,ユーザフレンドリーな制御のための音素レベルのエネルギーシーケンスを提案する。
我々の知る限りでは、これはSVSでユーザ主導の動的制御を可能にする最初の試みである。
実験により, 合成品質を損なうことなく, 音素レベル入力の平均絶対誤差を50%以上低減できることを示した。
関連論文リスト
- SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。
低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。
大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-06-26T17:07:45Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。