論文の概要: Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions
- arxiv url: http://arxiv.org/abs/2310.14040v1
- Date: Sat, 21 Oct 2023 15:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:11:30.019757
- Title: Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions
- Title(参考訳): 感情制御によるシンボリック音楽生成のための高速拡散GANモデル
- Authors: Jincheng Zhang, Gy\"orgy Fazekas, Charalampos Saitis
- Abstract要約: 本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 1.6004393678882072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown promising results for a wide range of generative
tasks with continuous data, such as image and audio synthesis. However, little
progress has been made on using diffusion models to generate discrete symbolic
music because this new class of generative models are not well suited for
discrete data while its iterative sampling process is computationally
expensive. In this work, we propose a diffusion model combined with a
Generative Adversarial Network, aiming to (i) alleviate one of the remaining
challenges in algorithmic music generation which is the control of generation
towards a target emotion, and (ii) mitigate the slow sampling drawback of
diffusion models applied to symbolic music generation. We first used a trained
Variational Autoencoder to obtain embeddings of a symbolic music dataset with
emotion labels and then used those to train a diffusion model. Our results
demonstrate the successful control of our diffusion model to generate symbolic
music with a desired emotion. Our model achieves several orders of magnitude
improvement in computational cost, requiring merely four time steps to denoise
while the steps required by current state-of-the-art diffusion models for
symbolic music generation is in the order of thousands.
- Abstract(参考訳): 拡散モデルは、画像や音声合成のような連続データを含む幅広い生成タスクに対して有望な結果を示している。
しかし、この新たな生成モデルは離散データには適さないが、反復サンプリングプロセスは計算コストがかかるため、拡散モデルを用いて離散的シンボリック音楽を生成する方法はほとんど進歩していない。
本研究では,生成型逆ネットワークと組み合わせた拡散モデルを提案する。
(i)対象感情に対する生成制御であるアルゴリズム音楽生成における課題の1つを軽減し、
(ii)シンボリック音楽生成に適用される拡散モデルの遅いサンプリング欠点を緩和する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを取得し、それらを拡散モデルのトレーニングに使用した。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
我々のモデルは数桁の計算コスト向上を実現し、記号音楽生成の最先端拡散モデルで要求されるステップが数千の順序にある間は、ただ4つの時間ステップで認知できる。
関連論文リスト
- Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。
既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。
実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2024-04-20T11:52:30Z) - Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models [5.083504224028769]
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と離散拡散モデルを組み合わせたシンボリック音楽の生成を提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
論文 参考訳(メタデータ) (2023-10-21T15:41:50Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Progressive distillation diffusion for raw music generation [0.0]
本稿では,生のオーディオファイルを生成するタスクに,新たなディープラーニングアプローチを適用することを目的とする。
これは近年の深層生成モデルである拡散モデルに基づいている。
論文 参考訳(メタデータ) (2023-07-20T16:25:00Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Generating symbolic music using diffusion models [0.0]
ピアノロールを生成するために二項先行分布を用いた拡散モデルを提案する。
生成された音楽は、トレーニングピアノロールセグメントの長さまで時間的にコヒーレンスを有する。
コードは、コミュニティによるメソッドの使用と開発を促進するために、公開されています。
論文 参考訳(メタデータ) (2023-03-15T06:01:02Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。