論文の概要: Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.14044v2
- Date: Tue, 3 Sep 2024 19:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:41:34.201599
- Title: Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models
- Title(参考訳): ベクトル量子離散拡散モデルを用いたコンストラクタスタイルのシンボリック音楽生成
- Authors: Jincheng Zhang, György Fazekas, Charalampos Saitis,
- Abstract要約: 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と離散拡散モデルを組み合わせたシンボリック音楽の生成を提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
- 参考スコア(独自算出の注目度): 5.083504224028769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging Denoising Diffusion Probabilistic Models (DDPM) have become increasingly utilised because of promising results they have achieved in diverse generative tasks with continuous data, such as image and sound synthesis. Nonetheless, the success of diffusion models has not been fully extended to discrete symbolic music. We propose to combine a vector quantized variational autoencoder (VQ-VAE) and discrete diffusion models for the generation of symbolic music with desired composer styles. The trained VQ-VAE can represent symbolic music as a sequence of indexes that correspond to specific entries in a learned codebook. Subsequently, a discrete diffusion model is used to model the VQ-VAE's discrete latent space. The diffusion model is trained to generate intermediate music sequences consisting of codebook indexes, which are then decoded to symbolic music using the VQ-VAE's decoder. The evaluation results demonstrate our model can generate symbolic music with target composer styles that meet the given conditions with a high accuracy of 72.36%. Our code is available at https://github.com/jinchengzhanggg/VQVAE-Diffusion.
- Abstract(参考訳): 創発的拡散確率モデル (DDPM) は、画像や音声合成などの連続データを用いた多種多様な生成タスクで達成された有望な結果により、ますます活用されつつある。
それでも拡散モデルの成功は、離散的な象徴音楽に完全には拡張されていない。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と,シンボリック音楽生成のための離散拡散モデルを組み合わせることを提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
その後、離散拡散モデルを用いて、VQ-VAEの離散潜在空間をモデル化する。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
評価結果は,72.36%の精度で所定の条件を満たすターゲット作曲家スタイルのシンボリック音楽を生成することができることを示した。
私たちのコードはhttps://github.com/jinchengzhanggg/VQVAE-Diffusion.comで公開されています。
関連論文リスト
- An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Generating symbolic music using diffusion models [0.0]
ピアノロールを生成するために二項先行分布を用いた拡散モデルを提案する。
生成された音楽は、トレーニングピアノロールセグメントの長さまで時間的にコヒーレンスを有する。
コードは、コミュニティによるメソッドの使用と開発を促進するために、公開されています。
論文 参考訳(メタデータ) (2023-03-15T06:01:02Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。