論文の概要: Composer Vector: Style-steering Symbolic Music Generation in a Latent Space
- arxiv url: http://arxiv.org/abs/2604.03333v1
- Date: Fri, 03 Apr 2026 04:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.519035
- Title: Composer Vector: Style-steering Symbolic Music Generation in a Latent Space
- Title(参考訳): 作曲家ベクター:後期空間におけるスタイルステアリング・シンボリック・ミュージック・ジェネレーション
- Authors: Xunyi Jiang, Mingyang Yao, Jingyue Huang, Julian McAuley,
- Abstract要約: Composer Vectorは推論時ステアリング方式で、モデル内の潜在空間で直接動作し、再トレーニングせずに作曲家のスタイルを制御する。
効果的に世代を対象の作曲家スタイルへ誘導し、連続的な操舵係数による滑らかで解釈可能な制御を可能にする。
また、複数のスタイルを統一された潜在空間フレームワーク内でシームレスに融合することを可能にする。
- 参考スコア(独自算出の注目度): 15.93972343715694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic music generation has made significant progress, yet achieving fine-grained and flexible control over composer style remains challenging. Existing training-based methods for composer style conditioning depend on large labeled datasets. Besides, these methods typically support only single-composer generation at a time, limiting their applicability to more creative or blended scenarios. In this work, we propose Composer Vector, an inference-time steering method that operates directly in the model's latent space to control composer style without retraining. Through experiments on multiple symbolic music generation models, we show that Composer Vector effectively guides generations toward target composer styles, enabling smooth and interpretable control through a continuous steering coefficient. It also enables seamless fusion of multiple styles within a unified latent space framework. Overall, our work demonstrates that simple latent space steering provides a practical and general mechanism for controllable symbolic music generation, enabling more flexible and interactive creative workflows. Code and Demo are available here: https://github.com/JiangXunyi/Composer-Vector and https://jiangxunyi.github.io/composervector.github.io/
- Abstract(参考訳): シンボリック・ミュージック・ジェネレーションは大きな進歩を遂げたが、作曲家のスタイルをきめ細やかな、柔軟なコントロールを達成することは依然として困難である。
既存のトレーニングベースの作曲スタイル条件付け手法は、大きなラベル付きデータセットに依存している。
さらに、これらのメソッドは、通常、一度に1つのコンパイラ生成だけをサポートし、より創造的またはブレンドされたシナリオに適用性を制限する。
本研究では,モデルの潜在空間で直接動作する推論時ステアリング手法であるComposer Vectorを提案する。
複数のシンボリック・ミュージック・ジェネレーション・モデルによる実験により,コンストラクタ・ベクターは,連続的な操舵係数によるスムーズかつ解釈可能な制御を可能にするため,世代を対象の作曲家スタイルに効果的に導くことができることを示す。
また、複数のスタイルを統一された潜在空間フレームワーク内でシームレスに融合することを可能にする。
全体として、我々の研究は、シンプルなラテント・スペース・ステアリングが、より柔軟でインタラクティブなクリエイティブ・ワークフローを可能にする、コントロール可能なシンボリック・ミュージック・ジェネレーションの実践的で一般的なメカニズムを提供することを示した。
https://github.com/JiangXunyi/Composer-Vector and https://jiangxunyi.github.io/composervector.github.io/
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。