論文の概要: RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
- arxiv url: http://arxiv.org/abs/2405.20336v1
- Date: Thu, 30 May 2024 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 12:50:16.753215
- Title: RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
- Title(参考訳): RapVerse: テキストからのコヒーレントなボーカルと全体動作生成
- Authors: Jiaben Chen, Xin Yan, Yihang Chen, Siyuan Cen, Qinwei Ma, Haoyu Zhen, Kaizhi Qian, Lie Lu, Chuang Gan,
- Abstract要約: 歌詞入力から直接3次元体の動きと歌声を同時に生成する難易度タスクを提案する。
まずRapVerseデータセット(同期ラッピングボーカル、歌詞、高品質な3Dボディーメッシュを含む大規模なデータセット)を収集する。
これら3つのモダリティを統一した方法で変換器モデリングを共同で行うことにより、我々のフレームワークは、シームレスで現実的な声と人間の動きのブレンドを保証する。
- 参考スコア(独自算出の注目度): 45.11868756870458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a challenging task for simultaneously generating 3D holistic body motions and singing vocals directly from textual lyrics inputs, advancing beyond existing works that typically address these two modalities in isolation. To facilitate this, we first collect the RapVerse dataset, a large dataset containing synchronous rapping vocals, lyrics, and high-quality 3D holistic body meshes. With the RapVerse dataset, we investigate the extent to which scaling autoregressive multimodal transformers across language, audio, and motion can enhance the coherent and realistic generation of vocals and whole-body human motions. For modality unification, a vector-quantized variational autoencoder is employed to encode whole-body motion sequences into discrete motion tokens, while a vocal-to-unit model is leveraged to obtain quantized audio tokens preserving content, prosodic information, and singer identity. By jointly performing transformer modeling on these three modalities in a unified way, our framework ensures a seamless and realistic blend of vocals and human motions. Extensive experiments demonstrate that our unified generation framework not only produces coherent and realistic singing vocals alongside human motions directly from textual inputs but also rivals the performance of specialized single-modality generation systems, establishing new benchmarks for joint vocal-motion generation. The project page is available for research purposes at https://vis-www.cs.umass.edu/RapVerse.
- Abstract(参考訳): 本研究では,3次元体の動きを同時に生成し,テキストの歌詞入力から直接ボーカルを歌い,これら2つのモダリティを個別に扱う既存の作品を超えて前進させる課題を提案する。
これを容易にするために、我々はまずRapVerseデータセット、同期ラッピングボーカル、歌詞、高品質な3Dボディーメッシュを含む大規模なデータセットを収集する。
本稿では,RapVerseデータセットを用いて,言語,音声,動作における自己回帰型マルチモーダルトランスフォーマーのスケーリングが,声楽と人体全体の動作の一貫性と現実性をいかに高めるかを検討する。
モダリティ統一のために、ベクトル量子化された変分オートエンコーダを用いて、全体の動きシーケンスを離散的な動きトークンに符号化し、音声対単位モデルを利用して、コンテンツ、韻律情報、シンガーアイデンティティを保存する量子化された音声トークンを得る。
これら3つのモダリティを統一した方法で変換器モデリングを共同で行うことにより、我々のフレームワークは、シームレスで現実的な声と人間の動きのブレンドを保証する。
広汎な実験により、我々の統一された生成フレームワークは、テキスト入力から直接人間の動きと連動するコヒーレントでリアルな歌声を生成するだけでなく、特殊な単一モダリティ生成システムの性能に対抗し、共同声楽生成のための新しいベンチマークを確立した。
プロジェクトページは https://vis-www.cs.umass.edu/RapVerse.com で公開されている。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。