論文の概要: UniVoice: A Unified Model for Speech and Singing Voice Generation
- arxiv url: http://arxiv.org/abs/2606.05852v1
- Date: Thu, 04 Jun 2026 08:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.646832
- Title: UniVoice: A Unified Model for Speech and Singing Voice Generation
- Title(参考訳): UniVoice: 音声および歌声生成のための統一モデル
- Authors: Junjie Zheng, Huixin Xue, Shihong Ren, Chaofan Ding, Hao Liu, Zihao Chen,
- Abstract要約: 条件付きフローマッチングに基づく統一音声・歌唱音声生成フレームワークUniVoiceを提案する。
歌唱では、メロディ条件はMIDIノートシーケンスで表され、音声では、学習されたヌルメロディトークンに置き換えられる。
UniVoiceは、F5-TTS (5.21%)やCosyVoice3 (5.30%)のような専用のTSSシステムに匹敵する5.26%のスピーチPERを達成する
- 参考スコア(独自算出の注目度): 11.813888122703302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-speech (TTS) and singing voice synthesis (SVS) both aim to generate human vocal audio from symbolic inputs, but they impose different requirements on the generation process. Speech generation relies on flexible, language-driven prosody, whereas singing generation requires explicit melody control and accurate rhythmic alignment. This mismatch makes it challenging to train a single model that can generate both natural speech and controllable singing, since melody-related conditions should strongly constrain singing but should not restrict speech prosody. We present UniVoice, a unified speech and singing voice generation framework based on conditional flow matching. Instead of using a single undifferentiated conditioning representation, UniVoice factorizes the condition into content, melody, and timbre, which are encoded by modality-appropriate encoders and consumed by a shared Diffusion Transformer (DiT) backbone. For singing, the melody condition is represented by MIDI note sequences; for speech, it is replaced with a learned null melody token, allowing the model to infer prosody from linguistic and acoustic context. This design preserves explicit melody control for singing while avoiding the need to impose melody constraints on speech. We further analyze the null melody token as an approximation to melody marginalization in the conditional flow. Trained on 30k hours of speech and 35k hours of singing data, UniVoice achieves a speech PER of 5.26\%, comparable to dedicated TTS systems such as F5-TTS (5.21\%) and CosyVoice3 (5.30\%). On singing generation, UniVoice achieves a PER of 16.22\%, outperforming the unified baseline Vevo1.5 (24.72\%).
- Abstract(参考訳): テキスト音声合成(TTS)と歌声合成(SVS)はどちらも記号入力から人間の声の音声を生成することを目的としているが、生成プロセスに異なる要件を課している。
音声生成は柔軟で言語駆動の韻律に依存し、歌声生成には明確な旋律制御と正確なリズムアライメントが必要である。
このミスマッチは、メロディに関連した条件は歌を強く制約するが、音声の韻律を制限するべきではないため、自然な音声と制御可能な歌の両方を生成することができる単一モデルの訓練を困難にしている。
条件付きフローマッチングに基づく統一音声・歌唱音声生成フレームワークUniVoiceを提案する。
UniVoiceは、単一の未分化条件表現を使用する代わりに、条件をコンテンツ、メロディ、音色に分解し、モダリティに適合するエンコーダで符号化され、共有拡散変換器(DiT)のバックボーンで消費される。
歌唱では、メロディ条件はMIDIノートシーケンスで表され、音声では、学習されたヌルなメロディトークンに置き換えられ、モデルが言語的・音響的文脈から韻律を推測することができる。
この設計は、音声にメロディ制約を課す必要を回避しつつ、歌唱のための明確なメロディ制御を保っている。
さらに, 条件流中におけるメロディ境界化の近似として, ヌルメロディトークンを解析した。
30k時間のスピーチと35k時間の歌唱データで訓練されたUniVoiceは、F5-TTS (5.21\%)やCosyVoice3 (5.30\%)のような専用のTSSシステムに匹敵する5.26\%の音声PERを達成している。
歌声生成において、UniVoiceは16.22\%のPERを達成し、統一されたベースラインVevo1.5(24.72\%)を上回っている。
関連論文リスト
- VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models [45.70355425430011]
LALM(Large Audio Language Model)上に構築されたSVTモデルであるVocalParseについて述べる。
我々の新しい貢献は、歌詞、メロディ、音符対応を共同でモデル化し、構造化された楽譜に直接マッピングする生成シーケンスを生成するインターリーブ・プロンプト・フォーミュレーションの導入である。
実験では、VocalParseが複数の歌唱データセット上で最先端のSVTパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-05-06T08:03:31Z) - Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning [19.2319862239494]
本稿では,制御可能な音声と歌声生成のための統合フレームワークであるVevo2を紹介する。
Vevo2は、自動回帰(AR)コンテンツスタイルのモデリングステージで構成されており、テキスト、韻律、スタイルの制御を可能にすることを目的としている。
実験結果から,Vevo2の統一モデリングは音声と歌声の両方に相互に利点をもたらすことがわかった。
論文 参考訳(メタデータ) (2025-08-22T12:20:11Z) - S2Cap: A Benchmark and a Baseline for Singing Style Captioning [12.515874333424929]
本稿では,歌唱音声のデータセットであるS2Capについて述べる。
このデータセットを用いて,歌唱スタイルキャプションのための効率的で簡単なベースラインアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。