論文の概要: SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition
- arxiv url: http://arxiv.org/abs/2402.17645v2
- Date: Fri, 30 May 2025 22:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.792933
- Title: SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition
- Title(参考訳): SongComposer: 歌詞・メロディ生成のための大規模言語モデル
- Authors: Shuangrui Ding, Zihan Liu, Xiaoyi Dong, Pan Zhang, Rui Qian, Junhao Huang, Conghui He, Dahua Lin, Jiaqi Wang,
- Abstract要約: SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
- 参考スコア(独自算出の注目度): 82.38021790213752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating lyrics and melodies for the vocal track in a symbolic format, known as song composition, demands expert musical knowledge of melody, an advanced understanding of lyrics, and precise alignment between them. Despite achievements in sub-tasks such as lyric generation, lyric-to-melody, and melody-to-lyric, etc, a unified model for song composition has not yet been achieved. In this paper, we introduce SongComposer, a pioneering step towards a unified song composition model that can readily create symbolic lyrics and melodies following instructions. SongComposer is a music-specialized large language model (LLM) that, for the first time, integrates the capability of simultaneously composing lyrics and melodies into LLMs by leveraging three key innovations: 1) a flexible tuple format for word-level alignment of lyrics and melodies, 2) an extended tokenizer vocabulary for song notes, with scalar initialization based on musical knowledge to capture rhythm, and 3) a multi-stage pipeline that captures musical structure, starting with motif-level melody patterns and progressing to phrase-level structure for improved coherence. Extensive experiments demonstrate that SongComposer outperforms advanced LLMs, including GPT-4, in tasks such as lyric-to-melody generation, melody-to-lyric generation, song continuation, and text-to-song creation. Moreover, we will release SongCompose, a large-scale dataset for training, containing paired lyrics and melodies in Chinese and English.
- Abstract(参考訳): ボーカル・トラックのための歌詞とメロディをシンボリックな形式で制作し、歌曲作曲として知られるが、メロディの専門的な音楽知識、歌詞の高度な理解、それらの間の正確なアライメントを要求する。
歌詞生成や歌詞・メロディ・メロディ・メロディなどのサブタスクの達成にもかかわらず、歌唱の統一モデルはまだ達成されていない。
本稿では,SongComposerについて紹介する。SongComposerはシンボリックな歌詞やメロディを簡単に作成できる統一歌唱モデルに向けた先駆的なステップである。
SongComposerは音楽特化大言語モデル(LLM)であり、歌詞と旋律をLLMに同時に合成する能力を統合することで、3つの重要な革新を生かした。
1)歌詞と旋律の単語レベルのアライメントのための柔軟なタプル形式
2)音符用拡張トークンー語彙,リズムを捉えた音楽知識に基づくスカラー初期化,
3)マルチステージパイプラインは,モチーフレベルのメロディパターンから始まり,コヒーレンスを改善するためにフレーズレベルの構造へと進化する。
広範な実験により、SongComposerは、歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、GPT-4を含む高度なLLMよりも優れていた。
さらに、中国語と英語でペア化された歌詞と旋律を含む大規模なトレーニング用データセットであるSongComposeをリリースする。
関連論文リスト
- SongGLM: Lyric-to-Melody Generation with 2D Alignment Encoding and Multi-Task Pre-Training [7.3026780262967685]
SongGLMは2次元アライメント符号化とマルチタスク事前学習を利用する歌詞からメロディ生成システムである。
我々は,20万曲以上の英曲を事前学習と微調整に用いた大規模歌詞・旋律ペアデータセットを構築した。
論文 参考訳(メタデータ) (2024-12-24T02:30:07Z) - Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation [31.825105824490464]
シンボリック・ミュージック(英: Symbolic Music)は、言語に似た、離散的な記号で符号化される。
近年,大言語モデル (LLM) を記号的音楽領域に適用する研究が進められている。
本研究は, シンボリック・ミュージック・プロセッシングにおけるLLMの能力と限界について, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-31T11:29:46Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。