論文の概要: Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control
- arxiv url: http://arxiv.org/abs/2601.03973v1
- Date: Wed, 07 Jan 2026 14:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.585887
- Title: Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control
- Title(参考訳): Muse: ファイン・グラインド・スタイル制御による再現可能なロングフォーム・ソング・ジェネレーションを目指して
- Authors: Changhao Jiang, Jiahao Chen, Zhenghao Xiang, Zhixiong Yang, Hanchen Wang, Jiabao Zhuang, Xinmeng Che, Jiajun Sun, Hui Li, Yifei Cao, Shihan Dou, Ming Zhang, Junjie Ye, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
- 参考スコア(独自算出の注目度): 66.46754271097555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent commercial systems such as Suno demonstrate strong capabilities in long-form song generation, while academic research remains largely non-reproducible due to the lack of publicly available training data, hindering fair comparison and progress. To this end, we release a fully open-source system for long-form song generation with fine-grained style conditioning, including a licensed synthetic dataset, training and evaluation pipelines, and Muse, an easy-to-deploy song generation model. The dataset consists of 116k fully licensed synthetic songs with automatically generated lyrics and style descriptions paired with audio synthesized by SunoV5. We train Muse via single-stage supervised finetuning of a Qwen-based language model extended with discrete audio tokens using MuCodec, without task-specific losses, auxiliary objectives, or additional architectural components. Our evaluations find that although Muse is trained with a modest data scale and model size, it achieves competitive performance on phoneme error rate, text--music style similarity, and audio aesthetic quality, while enabling controllable segment-level generation across different musical structures. All data, model weights, and training and evaluation pipelines will be publicly released, paving the way for continued progress in controllable long-form song generation research. The project repository is available at https://github.com/yuhui1038/Muse.
- Abstract(参考訳): 近年のSunoのような商業システムでは、長期の楽曲生成において強力な能力を発揮しているが、学術的な研究は、一般に公開されているトレーニングデータが不足していることや、公正な比較や進歩を妨げるため、ほとんど再現不可能なままである。
この目的のために我々は、ライセンス付き合成データセット、トレーニングと評価パイプライン、そして容易にデプロイ可能な楽曲生成モデルであるMuseを含む、きめ細かいスタイル条件付き長大な楽曲生成のための完全なオープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成された歌詞と、SunoV5で合成されたオーディオと組み合わせたスタイル記述がある。
タスク固有の損失、補助的な目的、アーキテクチャコンポーネントを伴わずに、MuCodecを使用して個別のオーディオトークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
評価の結果,Museは音素誤り率,テキスト-音楽スタイルの類似性,美的品質の両面において,音素誤り率とモデルサイズで訓練されているものの,異なる音楽構造をまたいで制御可能なセグメントレベル生成を実現していることがわかった。
すべてのデータ、モデルウェイト、トレーニングおよび評価パイプラインが公開され、コントロール可能なロングフォームの曲生成研究における継続的な進歩の道が開ける。
プロジェクトリポジトリはhttps://github.com/yuhui1038/Muse.comから入手できる。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。