論文の概要: Composer Style-specific Symbolic Music Generation Using Vector Quantized
Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.14044v1
- Date: Sat, 21 Oct 2023 15:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:11:46.397107
- Title: Composer Style-specific Symbolic Music Generation Using Vector Quantized
Discrete Diffusion Models
- Title(参考訳): ベクトル量子離散拡散モデルを用いたコンストラクタスタイルのシンボリック音楽生成
- Authors: Jincheng Zhang, Jingjing Tang, Charalampos Saitis, Gy\"orgy Fazekas
- Abstract要約: 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と離散拡散モデルを組み合わせたシンボリック音楽の生成を提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
その結果,72.36%の精度で所定の条件を満たす対象の作曲家スタイルでシンボリック音楽を生成することができた。
- 参考スコア(独自算出の注目度): 2.8372820007098403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging Denoising Diffusion Probabilistic Models (DDPM) have become
increasingly utilised because of promising results they have achieved in
diverse generative tasks with continuous data, such as image and sound
synthesis. Nonetheless, the success of diffusion models has not been fully
extended to discrete symbolic music. We propose to combine a vector quantized
variational autoencoder (VQ-VAE) and discrete diffusion models for the
generation of symbolic music with desired composer styles. The trained VQ-VAE
can represent symbolic music as a sequence of indexes that correspond to
specific entries in a learned codebook. Subsequently, a discrete diffusion
model is used to model the VQ-VAE's discrete latent space. The diffusion model
is trained to generate intermediate music sequences consisting of codebook
indexes, which are then decoded to symbolic music using the VQ-VAE's decoder.
The results demonstrate our model can generate symbolic music with target
composer styles that meet the given conditions with a high accuracy of 72.36%.
- Abstract(参考訳): 創発的拡散確率モデル(DDPM)は、画像や音声合成などの連続データを用いた様々な生成タスクで達成された有望な結果により、ますます活用されつつある。
それでも拡散モデルの成功は、離散的な象徴音楽に完全には拡張されていない。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と,シンボリック音楽生成のための離散拡散モデルを組み合わせることを提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
その後、離散拡散モデルを用いてvq-vaeの離散潜在空間をモデル化する。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
その結果,72.36%の精度で所定の条件を満たす対象の作曲家スタイルでシンボリック音楽を生成することができた。
関連論文リスト
- WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Generating symbolic music using diffusion models [0.0]
ピアノロールを生成するために二項先行分布を用いた拡散モデルを提案する。
生成された音楽は、トレーニングピアノロールセグメントの長さまで時間的にコヒーレンスを有する。
コードは、コミュニティによるメソッドの使用と開発を促進するために、公開されています。
論文 参考訳(メタデータ) (2023-03-15T06:01:02Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z) - Depthwise Discrete Representation Learning [2.728575246952532]
離散表現の学習の最近の進歩は、言語、オーディオ、ビジョンを含むタスクにおいて、アート結果の状態を導いている。
単語、音素、形状などの潜時要因は連続ではなく離散潜時変数で表される。
ベクトル量子化変分オートエンコーダ(VQVAE)は、複数の領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2020-04-11T18:57:13Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。