論文の概要: MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners
- arxiv url: http://arxiv.org/abs/2506.18729v1
- Date: Mon, 23 Jun 2025 15:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.042023
- Title: MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners
- Title(参考訳): MuseControlLite:軽量コンディショナーを用いた多機能音楽生成
- Authors: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang,
- Abstract要約: MuseControlLiteは、正確な条件付けのためにテキストから音楽への生成モデルを微調整するように設計されている。
興味のある状態が時間の関数である場合、位置埋め込みが重要となる。
- 参考スコア(独自算出の注目度): 16.90741849156418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MuseControlLite, a lightweight mechanism designed to fine-tune text-to-music generation models for precise conditioning using various time-varying musical attributes and reference audio signals. The key finding is that positional embeddings, which have been seldom used by text-to-music generation models in the conditioner for text conditions, are critical when the condition of interest is a function of time. Using melody control as an example, our experiments show that simply adding rotary positional embeddings to the decoupled cross-attention layers increases control accuracy from 56.6% to 61.1%, while requiring 6.75 times fewer trainable parameters than state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion Transformer model of Stable Audio Open. We evaluate various forms of musical attribute control, audio inpainting, and audio outpainting, demonstrating improved controllability over MusicGen-Large and Stable Audio Open ControlNet at a significantly lower fine-tuning cost, with only 85M trainble parameters. Source code, model checkpoints, and demo examples are available at: https: //MuseControlLite.github.io/web/.
- Abstract(参考訳): 本研究では,様々な時間変化音楽属性と参照音声信号を用いて,高精度な条件付けのためのテキスト・音楽生成モデルを微調整する軽量な機構であるMuseControlLiteを提案する。
鍵となる発見は、テキスト状態の条件付けにおいて、テキストから音楽への生成モデルでほとんど使われていない位置埋め込みが、興味のある状態が時間の関数である場合に重要であることである。
メロディ制御を例として, 分離層に回転位置埋め込みを付加するだけで制御精度が56.6%から61.1%に向上する一方で, スタブルオーディオ・オープンの拡散変圧器モデルを用いて, 最先端の微調整機構の6.75倍のトレーニングパラメータを必要とすることを示した。
音楽属性制御, 音響塗装, 音響出力の様々な形態の評価を行い, MusicGen-Large と Stable Audio Open ControlNet の制御性の向上を, 8500万のトレブルパラメータで大幅に低減した。
ソースコード、モデルチェックポイント、デモ例は、https: //MuseControlLite.github.io/web/.comで公開されている。
関連論文リスト
- LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation [0.0]
ControlNetは、新しいコンディショニングにエンコーダをクローンして微調整することで、事前訓練された生成モデルに外部コントロールをアタッチできる。
そこで本研究では,ControlNetとオーディオ品質とコンディションの整合性を両立させながら,パラメータ数を著しく削減する軽量なモジュールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:39:50Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。