論文の概要: MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction
- arxiv url: http://arxiv.org/abs/2505.23305v1
- Date: Thu, 29 May 2025 10:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.802935
- Title: MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction
- Title(参考訳): MGE-LDM:同時音楽生成と音源抽出のための継手潜時拡散
- Authors: Yunkee Chae, Kyogu Lee,
- Abstract要約: MGE-LDMは、同時音楽生成、ソース計算、クエリ駆動ソース分離のための統合潜在拡散フレームワークである。
遅延空間における条件付き塗装タスクとして分離と計算の両方を定式化することにより、任意の楽器源の柔軟でクラスに依存しない操作を支援する。
- 参考スコア(独自算出の注目度): 15.838868785353908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MGE-LDM, a unified latent diffusion framework for simultaneous music generation, source imputation, and query-driven source separation. Unlike prior approaches constrained to fixed instrument classes, MGE-LDM learns a joint distribution over full mixtures, submixtures, and individual stems within a single compact latent diffusion model. At inference, MGE-LDM enables (1) complete mixture generation, (2) partial generation (i.e., source imputation), and (3) text-conditioned extraction of arbitrary sources. By formulating both separation and imputation as conditional inpainting tasks in the latent space, our approach supports flexible, class-agnostic manipulation of arbitrary instrument sources. Notably, MGE-LDM can be trained jointly across heterogeneous multi-track datasets (e.g., Slakh2100, MUSDB18, MoisesDB) without relying on predefined instrument categories. Audio samples are available at our project page: https://yoongi43.github.io/MGELDM_Samples/.
- Abstract(参考訳): MGE-LDMは、同時音楽生成、ソース計算、クエリ駆動ソース分離のための統合潜在拡散フレームワークである。
固定楽器クラスに制約された以前のアプローチとは異なり、MGE-LDMは単一のコンパクト潜在拡散モデルにおいて、完全な混合物、サブミキチャー、および個々の茎のジョイント分布を学習する。
MGE-LDMは、(1)完全混合生成、(2)部分生成(すなわち、ソース命令)、(3)任意のソースのテキスト条件抽出を可能にする。
遅延空間における条件付き塗装タスクとして分離と計算の両方を定式化することにより、任意の楽器源の柔軟でクラスに依存しない操作を支援する。
特に、MGE-LDMは、予め定義された機器カテゴリに頼ることなく、異種多トラックデータセット(例えば、Slakh2100、MUSDB18、MoisesDB)を共同でトレーニングすることができる。
オーディオサンプルはプロジェクトのページで入手できます。
関連論文リスト
- MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification [46.89908887119571]
Whole Slide Image (WSI) の分類は、画像サイズと多数の非表現領域が原因で、ユニークな課題を生んでいる。
本稿では,Mixture-of-Experts(MoE)機構の強度と拡張分類のための拡散モデルを組み合わせたエキスパート拡散モデルMExDを提案する。
論文 参考訳(メタデータ) (2025-03-16T08:04:17Z) - Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models [26.373204974010086]
マルチソース拡散モデル (Multi-Source Diffusion Models, MDM) は、楽曲の合成作業を可能にする。
本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。
本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T12:08:01Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。