Fugu-MT 論文翻訳(概要): YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance

論文の概要: YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance

arxiv url: http://arxiv.org/abs/2512.04779v1
Date: Thu, 04 Dec 2025 13:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:46.178965
Title: YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance
Title（参考訳）: YingMusic-Singer:無音メロディ誘導によるゼロショット歌声合成と編集
Authors: Junjie Zheng, Chunbo Hao, Guobin Ma, Xiaoyu Zhang, Gongyu Chen, Chaofan Ding, Zihao Chen, Lei Xie,
Abstract要約: SVS(Singing Voice Synthesis)は、音素レベルの正確なアライメントに強く依存しているため、実際の展開には制約が残っている。メロディに追従した任意の歌詞を合成できるメロディ駆動のSVSフレームワークを提案する。提案手法は,Diffusion Transformer (DiT) アーキテクチャ上に構築され,メロディ抽出モジュールに拡張されている。
参考スコア（独自算出の注目度）: 16.462715982402884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Singing Voice Synthesis (SVS) remains constrained in practical deployment due to its strong dependence on accurate phoneme-level alignment and manually annotated melody contours, requirements that are resource-intensive and hinder scalability. To overcome these limitations, we propose a melody-driven SVS framework capable of synthesizing arbitrary lyrics following any reference melody, without relying on phoneme-level alignment. Our method builds on a Diffusion Transformer (DiT) architecture, enhanced with a dedicated melody extraction module that derives melody representations directly from reference audio. To ensure robust melody encoding, we employ a teacher model to guide the optimization of the melody extractor, alongside an implicit alignment mechanism that enforces similarity distribution constraints for improved melodic stability and coherence. Additionally, we refine duration modeling using weakly annotated song data and introduce a Flow-GRPO reinforcement learning strategy with a multi-objective reward function to jointly enhance pronunciation clarity and melodic fidelity. Experiments show that our model achieves superior performance over existing approaches in both objective measures and subjective listening tests, especially in zero-shot and lyric adaptation settings, while maintaining high audio quality without manual annotation. This work offers a practical and scalable solution for advancing data-efficient singing voice synthesis. To support reproducibility, we release our inference code and model checkpoints.
Abstract（参考訳）: SVS(Singing Voice Synthesis)は、正確な音素レベルのアライメントと手動で注釈付けされたメロディの輪郭に強い依存があり、リソース集約的で拡張性を妨げているため、実際の展開には制約が残っている。これらの制限を克服するために、音素レベルのアライメントに頼ることなく、任意の歌詞を任意のメロディに従って合成できるメロディ駆動SVSフレームワークを提案する。提案手法はDiffusion Transformer (DiT) アーキテクチャ上に構築され,参照音声から直接メロディ表現を導出する専用メロディ抽出モジュールで拡張されている。本研究では,ロバストなメロディ符号化を実現するために,メロディ抽出器の最適化を指導する教師モデルと,メロディ安定性とコヒーレンスを改善するための類似性分布制約を強制する暗黙アライメント機構を用いる。さらに,弱アノテートされた歌データを用いた持続時間モデリングを洗練し,多目的報酬機能を備えたフロー-GRPO強化学習戦略を導入し,発音明瞭度と旋律忠実度を両立させる。実験により,本モデルは,特にゼロショットおよびリリック適応設定において,客観的評価と主観的聴取テストの両方において既存の手法よりも優れた性能を示しながら,手動のアノテーションを使わずに高音質を維持した。この研究は、データ効率の良い歌声合成を進めるための実用的でスケーラブルなソリューションを提供する。再現性をサポートするため、私たちは推論コードとモデルチェックポイントをリリースします。

関連論文リスト

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation [8.659397003532488]
歌声合成評価のための多次元言語と音声フィードバックを提供する生成的フィードバックフレームワークを提案する。提案手法は, メロディ, コンテンツ, 聴覚品質など, テキストや音声の批判的側面を生成するために, 音声モデルを活用する。このフレームワークは、生成モデルの改善を導くのに適した音楽的正確で解釈可能な評価を生成する。
論文参考訳（メタデータ） (2025-12-02T08:32:09Z)
DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment [13.149605745750245]
人間の歌声のコンパクトなシードセットは、固定されたメロディと多様な歌詞を組み合わせて構築され、メロディ固有のモデルは500時間以上の中国語の歌唱データを合成するように訓練されている。そこで我々は, 深度, 幅, 解像度を体系的に拡張した拡散変換器 DiTSinger を提案する。
論文参考訳（メタデータ） (2025-10-10T05:39:45Z)
CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance [6.797243060589937]
歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
論文参考訳（メタデータ） (2025-09-24T08:34:19Z)
SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2025-06-26T17:07:45Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文参考訳（メタデータ） (2023-09-01T06:40:41Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-05-08T06:02:10Z)
DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文参考訳（メタデータ） (2021-05-06T05:21:42Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Continuous Melody Generation via Disentangled Short-Term Representations and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文参考訳（メタデータ） (2020-02-05T06:23:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。