論文の概要: CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance
- arxiv url: http://arxiv.org/abs/2509.19883v1
- Date: Wed, 24 Sep 2025 08:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.738486
- Title: CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance
- Title(参考訳): CoMelSinger:構造化メロディ制御と誘導による離散トークンベースのゼロショット歌唱合成
- Authors: Junchuan Zhao, Wei Zeng, Tianle Lyu, Ye Wang,
- Abstract要約: 歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。
本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。
我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 6.797243060589937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing Voice Synthesis (SVS) aims to generate expressive vocal performances from structured musical inputs such as lyrics and pitch sequences. While recent progress in discrete codec-based speech synthesis has enabled zero-shot generation via in-context learning, directly extending these techniques to SVS remains non-trivial due to the requirement for precise melody control. In particular, prompt-based generation often introduces prosody leakage, where pitch information is inadvertently entangled within the timbre prompt, compromising controllability. We present CoMelSinger, a zero-shot SVS framework that enables structured and disentangled melody control within a discrete codec modeling paradigm. Built on the non-autoregressive MaskGCT architecture, CoMelSinger replaces conventional text inputs with lyric and pitch tokens, preserving in-context generalization while enhancing melody conditioning. To suppress prosody leakage, we propose a coarse-to-fine contrastive learning strategy that explicitly regularizes pitch redundancy between the acoustic prompt and melody input. Furthermore, we incorporate a lightweight encoder-only Singing Voice Transcription (SVT) module to align acoustic tokens with pitch and duration, offering fine-grained frame-level supervision. Experimental results demonstrate that CoMelSinger achieves notable improvements in pitch accuracy, timbre consistency, and zero-shot transferability over competitive baselines.
- Abstract(参考訳): 歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。
近年の離散コーデックに基づく音声合成の進歩により、文脈内学習によるゼロショット生成が可能となったが、正確なメロディ制御の必要性から、これらの手法を直接SVSに拡張することは容易ではない。
特に、プロンプトベースの生成は、しばしばプロソディリークを導入し、音程情報は音程プロンプト内に意図せず絡まっており、制御性を損なう。
CoMelSingerは、離散コーデックモデリングのパラダイムにおいて、構造化されたメロディ制御を可能にするゼロショットSVSフレームワークである。
非自己回帰型MaskGCTアーキテクチャに基づいて構築されたCoMelSingerは、従来のテキスト入力を歌詞とピッチトークンに置き換え、メロディ条件の強化とともにコンテキスト内一般化を保存する。
プロソディーの漏洩を抑制するため,音響プロンプトとメロディー入力のピッチ冗長性を明確に調整する粗大なコントラスト学習戦略を提案する。
さらに,軽量なエンコーダのみのSinging Voice Transcription (SVT) モジュールを組み込んで,音符をピッチや持続時間に合わせて調整し,フレームレベルのきめ細かな監視を行う。
実験により,CoMelSingerは競争ベースラインよりもピッチ精度,音色整合性,ゼロショット転送性において顕著な改善を実現していることが示された。
関連論文リスト
- Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice Conversion [16.19865417052239]
Discl-VCはゼロショット音声変換フレームワークである。
内容と韻律情報を自己教師型音声表現から切り離す。
ターゲット話者の声をテキスト内学習により合成する。
論文 参考訳(メタデータ) (2025-05-30T07:04:23Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Pitch Preservation In Singing Voice Synthesis [6.99674326582747]
本稿では,独立した音素エンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
実験結果から,提案手法はピッチ入力間の固有構造を特徴付けることができ,ピッチ合成精度が向上し,高度なベースラインシステムに対して優れた歌唱合成性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-11T07:01:06Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。