論文の概要: BandCondiNet: Parallel Transformers-based Conditional Popular Music Generation with Multi-View Features
- arxiv url: http://arxiv.org/abs/2407.10462v2
- Date: Fri, 17 Oct 2025 03:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.293567
- Title: BandCondiNet: Parallel Transformers-based Conditional Popular Music Generation with Multi-View Features
- Title(参考訳): BandCondiNet:マルチビュー機能を備えた並列トランスフォーマーに基づく条件付きポピュラー音楽生成
- Authors: Jing Luo, Xinyu Yang, Dorien Herremans,
- Abstract要約: BandCondiNetは並列トランスフォーマーに基づく条件付きモデルであり、高品質なマルチトラックサンプルを生成する。
BandCondiNetの特殊なモジュール: 音楽構造を強化するための構造拡張アテンション(SEA)と、トラック間の調和を強化するためのクロストラックトランスフォーマー(CTT)である。
短いデータセットの客観的な結果は、BandCondiNetがフィリティと推論速度に関連する10の指標のうち9の条件付きモデルを上回っていることを示している。
長いデータセットでは、BandCondiNetが10のメトリクスすべてにわたる条件付きモデルをすべて上回っている。
- 参考スコア(独自算出の注目度): 21.148033414075723
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conditional music generation offers significant advantages in terms of user convenience and control, presenting great potential in AI-generated content research. However, building conditional generative systems for multitrack popular songs presents three primary challenges: insufficient fidelity of input conditions, poor structural modeling, and inadequate inter-track harmony learning in generative models. To address these issues, we propose BandCondiNet, a conditional model based on parallel Transformers, designed to process the multiple music sequences and generate high-quality multitrack samples. Specifically, we propose multi-view features across time and instruments as high-fidelity conditions. Moreover, we propose two specialized modules for BandCondiNet: Structure Enhanced Attention (SEA) to strengthen the musical structure, and Cross-Track Transformer (CTT) to enhance inter-track harmony. We conducted both objective and subjective evaluations on two popular music datasets with different sequence lengths. Objective results on the shorter dataset show that BandCondiNet outperforms other conditional models in 9 out of 10 metrics related to fidelity and inference speed, with the exception of Chord Accuracy. On the longer dataset, BandCondiNet surpasses all conditional models across all 10 metrics. Subjective evaluations across four criteria reveal that BandCondiNet trained on the shorter dataset performs best in Richness and performs comparably to state-of-the-art models in the other three criteria, while significantly outperforming them across all criteria when trained on the longer dataset. To further expand the application scope of BandCondiNet, future work should focus on developing an advanced conditional model capable of adapting to more user-friendly input conditions and supporting flexible instrumentation.
- Abstract(参考訳): 条件付き音楽生成は、ユーザ利便性と制御の観点から大きな利点をもたらし、AI生成コンテンツ研究において大きな可能性を示す。
しかし、多トラックポピュラーソングのための条件付き生成システムの構築には、入力条件の不完全性、構造モデリングの貧弱、生成モデルにおけるトラック間調和学習の不十分という3つの大きな課題がある。
これらの問題に対処するため、並列トランスフォーマーに基づく条件付きモデルであるBandCondiNetを提案し、複数の音楽シーケンスを処理し、高品質なマルチトラックサンプルを生成する。
具体的には,高忠実度条件として,時間と楽器の多視点特徴を提案する。
さらに,BandCondiNetのための2つの特別なモジュールを提案する。音楽構造を強化するための構造拡張アテンション(SEA)と,トラック間の調和を高めるためのクロストラックトランスフォーマー(CTT)である。
音節長の異なる2つのポピュラー音楽データセットに対して,客観的および主観的評価を行った。
短いデータセットの客観的な結果は、コード精度を除いて、BandCondiNetがフィリティと推論速度に関連する10の指標のうち9の条件付きモデルよりも優れていることを示している。
長いデータセットでは、BandCondiNetが10のメトリクスすべてにわたる条件付きモデルをすべて上回っている。
4つの基準の主観評価により、短いデータセットでトレーニングされたBandCondiNetは、Richnessで最高のパフォーマンスを示し、他の3つの基準で最先端モデルと互換性があり、長いデータセットでトレーニングされた場合、すべての基準で大幅にパフォーマンスが向上する。
BandCondiNetの適用範囲をさらに拡大するためには、よりユーザフレンドリな入力条件に適応し、フレキシブルなインスツルメンテーションをサポートする高度な条件モデルの開発に注力する必要がある。
関連論文リスト
- Versatile Framework for Song Generation with Prompt-based Control [50.359999116420084]
VersBandは、高品質でアライメントのある曲をプロンプトベースのコントロールで合成するためのフレームワークである。
分離されたモデルであるVocalBandは、歌唱スタイル、ピッチ、メル-スペクトログラムを生成するためのフローマッチング手法を利用している。
フローベースのトランスフォーマーモデルであるAccompBandは、Band-MOEを取り入れ、品質、アライメント、制御の強化に適した専門家を選択する。
歌詞用LyricBandとメロディー用MelodyBandの2世代モデルは、総合的なマルチタスク・ソング生成システムに貢献している。
論文 参考訳(メタデータ) (2025-04-27T01:00:06Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。