論文の概要: Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.11706v1
- Date: Mon, 18 Mar 2024 12:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:28:10.276136
- Title: Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models
- Title(参考訳): テキスト条件付き音楽拡散モデルに対する一般化マルチソース推論
- Authors: Emilian Postolache, Giorgio Mariani, Luca Cosmo, Emmanouil Benetos, Emanuele Rodolà,
- Abstract要約: マルチソース拡散モデル (Multi-Source Diffusion Models, MDM) は、楽曲の合成作業を可能にする。
本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。
本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
- 参考スコア(独自算出の注目度): 26.373204974010086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Source Diffusion Models (MSDM) allow for compositional musical generation tasks: generating a set of coherent sources, creating accompaniments, and performing source separation. Despite their versatility, they require estimating the joint distribution over the sources, necessitating pre-separated musical data, which is rarely available, and fixing the number and type of sources at training time. This paper generalizes MSDM to arbitrary time-domain diffusion models conditioned on text embeddings. These models do not require separated data as they are trained on mixtures, can parameterize an arbitrary number of sources, and allow for rich semantic control. We propose an inference procedure enabling the coherent generation of sources and accompaniments. Additionally, we adapt the Dirac separator of MSDM to perform source separation. We experiment with diffusion models trained on Slakh2100 and MTG-Jamendo, showcasing competitive generation and separation results in a relaxed data setting.
- Abstract(参考訳): マルチソース拡散モデル(Multi-Source Diffusion Models、MSDM)は、一連のコヒーレントなソースを生成し、伴奏を作成し、ソース分離を行う。
その汎用性にもかかわらず、これらはソース上のジョイント分布を推定し、未使用の事前分離された音楽データを必要とせず、トレーニング時にソースの数とタイプを固定する必要がある。
本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。
これらのモデルは、混合物で訓練されているため、分離されたデータを必要としないため、任意の数のソースをパラメータ化でき、よりリッチなセマンティックコントロールを可能にする。
本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
さらに,MSDMのディラック分離器を用いてソース分離を行う。
我々はSlakh2100とMTG-Jamendoで訓練された拡散モデルを用いて実験を行い、緩和されたデータセットで競合生成と分離結果を示す。
関連論文リスト
- Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Training Data Protection with Compositional Diffusion Models [99.46239561159953]
比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。
個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。
各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
論文 参考訳(メタデータ) (2023-08-02T23:27:49Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Diffusion-based Generative Speech Source Separation [27.928990101986862]
微分方程式(SDE)のスコアマッチングに基づく新しい単一チャネルソース分離法であるDiffSepを提案する。
WSJ0 2mixデータセットの実験では、メソッドの可能性が示されています。
この手法は音声強調にも適しており,VoiceBank-DEMANDデータセットの先行処理と競合する性能を示す。
論文 参考訳(メタデータ) (2022-10-31T13:46:55Z) - Source Separation with Deep Generative Priors [17.665938343060112]
混合音源の成分に対する先行モデルとして生成モデルを用い、混合音源の後方分布からノイズアニールランゲインダイナミクスをサンプリングした。
これにより、ソース分離問題と生成モデルとの分離問題を分離し、最先端の生成モデルを先行として直接使用することが可能となる。
本手法は,MNIST桁分離のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-02-19T00:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。