論文の概要: SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation
- arxiv url: http://arxiv.org/abs/2402.17645v1
- Date: Tue, 27 Feb 2024 16:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:35:38.948933
- Title: SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation
- Title(参考訳): SongComposer: 歌生成における歌詞・メロディ合成のための大規模言語モデル
- Authors: Shuangrui Ding, Zihan Liu, Xiaoyi Dong, Pan Zhang, Rui Qian, Conghui
He, Dahua Lin, Jiaqi Wang
- Abstract要約: SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 88.33522730306674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SongComposer, an innovative LLM designed for song composition. It
could understand and generate melodies and lyrics in symbolic song
representations, by leveraging the capability of LLM. Existing music-related
LLM treated the music as quantized audio signals, while such implicit encoding
leads to inefficient encoding and poor flexibility. In contrast, we resort to
symbolic song representation, the mature and efficient way humans designed for
music, and enable LLM to explicitly compose songs like humans. In practice, we
design a novel tuple design to format lyric and three note attributes (pitch,
duration, and rest duration) in the melody, which guarantees the correct LLM
understanding of musical symbols and realizes precise alignment between lyrics
and melody. To impart basic music understanding to LLM, we carefully collected
SongCompose-PT, a large-scale song pretraining dataset that includes lyrics,
melodies, and paired lyrics-melodies in either Chinese or English. After
adequate pre-training, 10K carefully crafted QA pairs are used to empower the
LLM with the instruction-following capability and solve diverse tasks. With
extensive experiments, SongComposer demonstrates superior performance in
lyric-to-melody generation, melody-to-lyric generation, song continuation, and
text-to-song creation, outperforming advanced LLMs like GPT-4.
- Abstract(参考訳): SongComposerは、歌の作曲用に設計された革新的なLLMである。
LLMの能力を利用して、シンボリックな歌の表現でメロディや歌詞を理解・生成できる。
既存の音楽関連LLMは音楽を量子化された音声信号として扱い、暗黙の符号化は非効率な符号化と柔軟性の低下につながった。
対照的に、私たちは、人間が音楽のために設計した成熟した効率的な方法である象徴的な歌の表現に頼り、LLMが人間のような歌を明示的に構成できるようにする。
実際には、歌詞と3つの音符属性(ピッチ、持続時間、休息時間)をメロディで形式化するための新しいタプルデザインをデザインし、曲記号の正しいllm理解を保証し、歌詞とメロディの正確なアライメントを実現する。
LLMに基本的な音楽理解を与えるため,中国語と英語で歌詞,旋律,ペアの歌詞メロディを含む大規模曲事前学習データセットであるSongCompose-PTを慎重に収集した。
十分な事前訓練の後、10KのQAペアは、命令追従能力を備えたLLMの強化と多様なタスクの解決に慎重に使用される。
広範な実験により、songcomposerは、gpt-4のような先進的なllmよりも優れた歌詞生成、メロディから歌詞生成、楽曲継続、テキストから歌への生成において優れたパフォーマンスを示す。
関連論文リスト
- Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation [31.825105824490464]
シンボリック・ミュージック(英: Symbolic Music)は、言語に似た、離散的な記号で符号化される。
近年,大言語モデル (LLM) を記号的音楽領域に適用する研究が進められている。
本研究は, シンボリック・ミュージック・プロセッシングにおけるLLMの能力と限界について, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-31T11:29:46Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。