論文の概要: MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss
- arxiv url: http://arxiv.org/abs/2407.04331v1
- Date: Fri, 5 Jul 2024 08:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:09:46.673528
- Title: MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss
- Title(参考訳): MuseBarControl:事前学習と非現実的損失によるシンボリック音楽生成における微粒化制御の強化
- Authors: Yangyang Shu, Haiming Xu, Ziqin Zhou, Anton van den Hengel, Lingqiao Liu,
- Abstract要約: 制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
- 参考スコア(独自算出の注目度): 51.85076222868963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating symbolic music-music scores tailored to specific human needs-can be highly beneficial for musicians and enthusiasts. Recent studies have shown promising results using extensive datasets and advanced transformer architectures. However, these state-of-the-art models generally offer only basic control over aspects like tempo and style for the entire composition, lacking the ability to manage finer details, such as control at the level of individual bars. While fine-tuning a pre-trained symbolic music generation model might seem like a straightforward method for achieving this finer control, our research indicates challenges in this approach. The model often fails to respond adequately to new, fine-grained bar-level control signals. To address this, we propose two innovative solutions. First, we introduce a pre-training task designed to link control signals directly with corresponding musical tokens, which helps in achieving a more effective initialization for subsequent fine-tuning. Second, we implement a novel counterfactual loss that promotes better alignment between the generated music and the control prompts. Together, these techniques significantly enhance our ability to control music generation at the bar level, showing a 13.06\% improvement over conventional methods. Our subjective evaluations also confirm that this enhanced control does not compromise the musical quality of the original pre-trained generative model.
- Abstract(参考訳): 特定の人間の要求に合わせたシンボリック音楽の楽譜を自動生成することは、ミュージシャンや愛好家にとって非常に有益である。
最近の研究では、広範なデータセットと高度なトランスフォーマーアーキテクチャを用いた有望な結果が示されている。
しかし、これらの最先端モデルは一般的に、テンポや構成全体のスタイルのような側面に対する基本的な制御しか提供せず、個々のバーのレベルでの制御のような細部を管理する能力が欠如している。
事前学習したシンボリック音楽生成モデルを微調整することは、この微調整を実現するための簡単な方法のように思えるが、本研究はこのアプローチの課題を示唆している。
モデルは、しばしば新しいきめ細かいバーレベルの制御信号に適切に応答しない。
この問題に対処するため、我々は2つの革新的な解決策を提案する。
まず、制御信号と対応する音符を直接リンクする事前学習タスクを導入し、その後の微調整においてより効果的な初期化を実現する。
第2に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
これらの技術は,従来の手法に比べて13.06倍の音質向上を示すとともに,バーレベルでの音楽生成を制御する能力を大幅に向上させた。
我々の主観評価は、この強化された制御が、元の事前学習された生成モデルの音質を損なわないことも確認した。
関連論文リスト
- BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - CoCoFormer: A controllable feature-rich polyphonic music generation
method [2.501600004190393]
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御するコンディション合唱変換器(CoCoFormer)を提案する。
本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
論文 参考訳(メタデータ) (2023-10-15T14:04:48Z) - Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control [25.95359681751144]
本稿では,グローバルレベルできめ細かな制御可能生成が可能な自己教師型記述系列タスクを提案する。
そこで本研究では、ターゲットシーケンスに関する高レベル特徴を抽出し、対応する高レベル記述が与えられたシーケンスの条件分布を、シーケンス・ツー・シーケンス・モデリング・セットアップで学習する。
学習された高次特徴と、強い帰納バイアスとして機能するドメイン知識を組み合わせることで、制御可能なシンボリック音楽生成の最先端結果を実現し、トレーニング分布をはるかに越えて一般化する。
論文 参考訳(メタデータ) (2022-01-26T13:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。