論文の概要: YuE: Scaling Open Foundation Models for Long-Form Music Generation
- arxiv url: http://arxiv.org/abs/2503.08638v1
- Date: Tue, 11 Mar 2025 17:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:21.783246
- Title: YuE: Scaling Open Foundation Models for Long-Form Music Generation
- Title(参考訳): YuE: 長期音楽生成のためのオープンファンデーションモデルのスケーリング
- Authors: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo,
- Abstract要約: YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。
歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
- 参考スコア(独自算出の注目度): 134.54174498094565
- License:
- Abstract: We tackle the task of long-form music generation--particularly the challenging \textbf{lyrics-to-song} problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation
- Abstract(参考訳): 本稿では,LLaMA2アーキテクチャに基づくオープンファンデーションモデルであるYuEを導入することで,長大な音楽生成の課題,特に難解な‘textbf{lyrics-to-song}問題に取り組む。
具体的には、Yueは数兆のトークンにスケールし、歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏による声帯旋律を維持しながら、最大5分間の音楽を生成する。
本手法は,(1)高密度混合信号を克服するためのトラックデカップリング次トーケン予測,(2)長文線形アライメントのための構造的プログレッシブ条件,(3)収束と一般化のためのマルチタスク,マルチフェーズ事前学習のレシピによって実現される。
さらに,音楽生成のためのテキスト内学習手法を再設計し,多目的なスタイルの変換(例えば,日本語の街並みを英語のラップに変換するなど)と双方向生成を可能にした。
広範に評価することで、YuEは音楽性や声楽の俊敏性において、いくつかのプロプライエタリなシステムと一致しているか、さらに超えていることを示す。
さらに、微調整のYuEにより、テール言語に対するコントロールの追加とサポート強化が可能になる。
さらに,YuEの学習した表現は,MARBLEベンチマークでYuEの結果が一致するか,あるいは最先端の手法を超えるような音楽理解タスクでも良好に機能することを示す。
キーワード:歌詞2song、曲生成、ロングフォーム、ファンデーションモデル、音楽生成
関連論文リスト
- CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation [17.41880273107978]
Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP)
入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。
大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
論文 参考訳(メタデータ) (2024-10-03T07:46:51Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings [28.685224087199053]
音楽生成は、大きな言語モデルに難しい複雑さをもたらす。
1) トークン化は、通常、生のMIDIデータに欠けているバーやビートのようなドメイン固有のアノテーションを必要とします。
我々はMuseNetにインスパイアされたMIDIベースの音楽生成フレームワークを開発し、ドメイン固有のアノテーションに依存しない2つの構造的埋め込みを実証的に研究した。
論文 参考訳(メタデータ) (2024-07-29T11:24:10Z) - MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。
生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。
この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-07-03T15:12:36Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - JEN-1: Text-Guided Universal Music Generation with Omnidirectional
Diffusion Models [16.18987351077676]
本稿では,テキスト・ツー・ミュージック・ジェネレーションのための汎用高忠実度モデルであるJEN-1を紹介する。
JEN-1は自己回帰トレーニングと非自己回帰トレーニングの両方を取り入れた拡散モデルである。
JEN-1は、テキスト・音楽のアライメントや音楽の質において、最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-09T06:27:24Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。