論文の概要: SongCreator: Lyrics-based Universal Song Generation
- arxiv url: http://arxiv.org/abs/2409.06029v1
- Date: Mon, 9 Sep 2024 19:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:51:02.462740
- Title: SongCreator: Lyrics-based Universal Song Generation
- Title(参考訳): SongCreator: 歌詞ベースのユニバーサルソングジェネレーション
- Authors: Shun Lei, Yixuan Zhou, Boshi Tang, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu, Helen Meng,
- Abstract要約: SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための追加の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
- 参考スコア(独自算出の注目度): 53.248473603201916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is an integral part of human culture, embodying human intelligence and creativity, of which songs compose an essential part. While various aspects of song generation have been explored by previous works, such as singing voice, vocal composition and instrumental arrangement, etc., generating songs with both vocals and accompaniment given lyrics remains a significant challenge, hindering the application of music generation models in the real world. In this light, we propose SongCreator, a song-generation system designed to tackle this challenge. The model features two novel designs: a meticulously designed dual-sequence language model (DSLM) to capture the information of vocals and accompaniment for song generation, and an additional attention mask strategy for DSLM, which allows our model to understand, generate and edit songs, making it suitable for various song-related generation tasks. Extensive experiments demonstrate the effectiveness of SongCreator by achieving state-of-the-art or competitive performances on all eight tasks. Notably, it surpasses previous works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally, it is able to independently control the acoustic conditions of the vocals and accompaniment in the generated song through different prompts, exhibiting its potential applicability. Our samples are available at https://songcreator.github.io/.
- Abstract(参考訳): 音楽は人間の文化の不可欠な部分であり、人間の知性と創造性を具現化している。
歌声、声楽曲、楽器の編曲など、以前の作品で歌唱のさまざまな側面が検討されてきたが、声楽と伴奏の両方で歌を創出することは、実際の世界での曲生成モデルの適用を妨げる重要な課題である。
そこで本研究では,この課題に対処するための曲生成システムであるSongCreatorを提案する。
モデルには2つの新しいデザインがある: 巧妙に設計された二重系列言語モデル(DSLM)は、歌生成のためのボーカルや伴奏に関する情報をキャプチャし、DSLMのための追加の注意マスク戦略により、モデルが歌を理解し、生成し、編集し、様々な歌生成タスクに適したものにする。
広範囲な実験は8つのタスクすべてに対して最先端または競争的なパフォーマンスを達成することでSongCreatorの有効性を実証する。
特に、前作の歌詞と歌詞とボーカルの差を大きく上回っている。
さらに、異なるプロンプトを通じて、生成された歌声の音響条件と伴奏を独立に制御することができ、その潜在的な適用性を示すことができる。
サンプルはhttps://songcreator.github.io/で公開しています。
関連論文リスト
- Sing-On-Your-Beat: Simple Text-Controllable Accompaniment Generations [5.56093728482997]
本稿では,テキストプロンプトによる伴奏制御を実現するための簡単な手法を提案する。
広範にわたる実験により,音声入力とテキスト制御を用いて10秒の伴奏を生成することに成功した。
論文 参考訳(メタデータ) (2024-11-03T19:17:20Z) - REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。
生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。
この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-07-03T15:12:36Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。
本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文 参考訳(メタデータ) (2023-06-05T06:14:08Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Interpretable Melody Generation from Lyrics with Discrete-Valued
Adversarial Training [12.02541352832997]
Gumbel-Softmaxは、GAN(Generative Adversarial Networks)による音楽属性生成の非微分性問題を解決するために利用される。
ユーザーは生成されたAI曲を聴くだけでなく、推奨音楽属性から選択することで新しい曲を再生することができる。
論文 参考訳(メタデータ) (2022-06-30T05:45:47Z) - Youling: an AI-Assisted Lyrics Creation System [72.00418962906083]
本稿では,AIによる歌詞作成システムである textitYouling について紹介する。
歌詞生成プロセスでは、textitYoulingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。
システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
論文 参考訳(メタデータ) (2022-01-18T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。