論文の概要: Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2505.03314v1
- Date: Tue, 06 May 2025 08:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.278414
- Title: Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation
- Title(参考訳): シンボリック音楽生成のための学習可能なウェーブレットを用いたマンバ拡散モデル
- Authors: Jincheng Zhang, György Fazekas, Charalampos Saitis,
- Abstract要約: シンボリック・ミュージックをイメージライクなピアノロールとして表現し、シンボリック・ミュージックの生成に拡散モデルを用いることを容易にする。
本研究では,提案したTransformer-Mambaブロックと学習可能なウェーブレット変換を組み込んだ新しい拡散モデルを提案する。
評価の結果,本手法は音楽の質と可制御性の観点から説得力のある結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 5.083504224028769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge in the popularity of diffusion models for image synthesis has attracted new attention to their potential for generation tasks in other domains. However, their applications to symbolic music generation remain largely under-explored because symbolic music is typically represented as sequences of discrete events and standard diffusion models are not well-suited for discrete data. We represent symbolic music as image-like pianorolls, facilitating the use of diffusion models for the generation of symbolic music. Moreover, this study introduces a novel diffusion model that incorporates our proposed Transformer-Mamba block and learnable wavelet transform. Classifier-free guidance is utilised to generate symbolic music with target chords. Our evaluation shows that our method achieves compelling results in terms of music quality and controllability, outperforming the strong baseline in pianoroll generation. Our code is available at https://github.com/jinchengzhanggg/proffusion.
- Abstract(参考訳): 近年,画像合成における拡散モデルの普及は,他の領域における生成タスクの可能性に新たな注目を集めている。
しかし、シンボリック音楽生成へのそれらの応用は、典型的には離散事象のシーケンスとして表現され、標準拡散モデルは離散データには適さないため、ほとんど未探索のままである。
シンボリック・ミュージックをイメージライクなピアノロールとして表現し、シンボリック・ミュージックの生成に拡散モデルを用いることを容易にする。
さらに,提案したTransformer-Mambaブロックと学習可能なウェーブレット変換を組み込んだ新しい拡散モデルを提案する。
クラシファイアフリーガイダンスは、ターゲットコードでシンボリック音楽を生成するために利用される。
評価の結果,本手法は,ピアノロール生成において高いベースラインを達成し,音楽品質と制御性の観点から説得力のある結果が得られることがわかった。
私たちのコードはhttps://github.com/jinchengzhanggg/proffusion.comで公開されています。
関連論文リスト
- Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。
FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。
このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文 参考訳(メタデータ) (2024-10-11T00:41:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion [32.961767438163676]
音楽規則は、音の密度やコード進行などの音の特徴に象徴的な形で表されることが多い。
本稿では,ルール関数の前方評価のみを必要とする新しいガイダンス手法である制御誘導(SCG)を提案する。
SCGは、非微分不可能なルールに対するトレーニング不要のガイダンスを初めて達成する。
論文 参考訳(メタデータ) (2024-02-22T04:55:58Z) - Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models [5.083504224028769]
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と離散拡散モデルを組み合わせたシンボリック音楽の生成を提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
論文 参考訳(メタデータ) (2023-10-21T15:41:50Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。