論文の概要: Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning
- arxiv url: http://arxiv.org/abs/2508.16332v1
- Date: Fri, 22 Aug 2025 12:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.378789
- Title: Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning
- Title(参考訳): Vevo2:統一韻律学習によるブリッジング制御可能な音声と歌声生成
- Authors: Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu,
- Abstract要約: 本稿では,制御可能な音声と歌声生成のための統合フレームワークであるVevo2を紹介する。
Vevo2は、自動回帰(AR)コンテンツスタイルのモデリングステージで構成されており、テキスト、韻律、スタイルの制御を可能にすることを目的としている。
実験結果から,Vevo2の統一モデリングは音声と歌声の両方に相互に利点をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 19.2319862239494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Controllable human voice generation, particularly for expressive domains like singing, remains a significant challenge. This paper introduces Vevo2, a unified framework for controllable speech and singing voice generation. To tackle issues like the scarcity of annotated singing data and to enable flexible controllability, Vevo2 introduces two audio tokenizers: (1) a music-notation-free prosody tokenizer that captures prosody and melody from speech, singing, and even instrumental sounds, and (2) a low-frame-rate (12.5 Hz) content-style tokenizer that encodes linguistic content, prosody, and style for both speech and singing, while enabling timbre disentanglement. Vevo2 consists of an auto-regressive (AR) content-style modeling stage, which aims to enable controllability over text, prosody, and style, as well as a flow-matching acoustic modeling stage that allows for timbre control. Particularly, during pre-training of the AR model, we propose both explicit and implicit prosody learning strategies to bridge speech and singing voice. Moreover, to further enhance the AR model's ability to follow text and prosody, we design a multi-objective post-training task that integrates both intelligibility and prosody similarity alignment. Experimental results show that the unified modeling in Vevo2 brings mutual benefits to both speech and singing voice generation. Additionally, Vevo2's effectiveness across a wide range of synthesis, conversion, and editing tasks for both speech and singing further demonstrates its strong generalization ability and versatility. Audio samples are are available at https://versasinger.github.io/.
- Abstract(参考訳): コントロール可能な人間の音声生成、特に歌唱のような表現力豊かなドメインは、依然として重要な課題である。
本稿では,制御可能な音声と歌声生成のための統合フレームワークであるVevo2を紹介する。
注釈付き歌唱データの不足や柔軟な制御性の実現といった課題に対処するため,Vevo2では,(1)韻律やメロディを音声,歌唱,さらには器楽音から捉える音楽表記自由プロソディ・トークンライザ,(2)言語内容,韻律,スタイルを符号化した低フレームレート(12.5Hz)のコンテント・トークンライザの2つを導入した。
Vevo2は、テキスト、韻律、スタイルの制御性を実現する自動回帰(AR)コンテンツスタイルモデリングステージと、音色制御を可能にするフローマッチング音響モデリングステージで構成されている。
特に、ARモデルの事前学習中に、音声と歌声をブリッジするための明示的および暗黙的な韻律学習戦略を提案する。
さらに,テキストと韻律を追従するARモデルの能力をさらに向上するため,インテリジェンスと韻律類似性アライメントを統合した多目的ポストトレーニングタスクを設計する。
実験結果から,Vevo2の統一モデリングは音声と歌声の両方に相互に利点をもたらすことがわかった。
さらに、Vevo2の有効性は、音声と歌の両方に対する幅広い合成、変換、編集タスクにまたがって、その強力な一般化能力と汎用性を示している。
オーディオサンプルはhttps://versasinger.github.io/.comで入手できる。
関連論文リスト
- Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement [18.669597283434662]
Vevoは、コントロール可能な音色とスタイルを備えた汎用的なゼロショット音声模倣フレームワークである。
音声のコンテンツとコンテンツスタイルのトークンを得るために,完全自己教師型アプローチを設計する。
Vevoはアクセントと感情の変換タスクで既存のメソッドにマッチするか、超える。
論文 参考訳(メタデータ) (2025-02-11T04:18:33Z) - S2Cap: A Benchmark and a Baseline for Singing Style Captioning [12.515874333424929]
本稿では,歌唱音声のデータセットであるS2Capについて述べる。
このデータセットを用いて,歌唱スタイルキャプションのための効率的で簡単なベースラインアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。