論文の概要: Multi-Source Music Generation with Latent Diffusion
- arxiv url: http://arxiv.org/abs/2409.06190v2
- Date: Fri, 13 Sep 2024 05:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 11:57:31.751921
- Title: Multi-Source Music Generation with Latent Diffusion
- Title(参考訳): 遅延拡散を用いたマルチソース音楽生成
- Authors: Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury,
- Abstract要約: マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
- 参考スコア(独自算出の注目度): 7.832209959041259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most music generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g. piano, drums, bass, and guitar). Its goal is to use one single diffusion model to generate mutually-coherent music sources, that are then mixed to form the music. Despite its capabilities, MSDM is unable to generate music with rich melodies and often generates empty sounds. Its waveform diffusion approach also introduces significant Gaussian noise artifacts that compromise audio quality. In response, we introduce a Multi-Source Latent Diffusion Model (MSLDM) that employs Variational Autoencoders (VAEs) to encode each instrumental source into a distinct latent representation. By training a VAE on all music sources, we efficiently capture each source's unique characteristics in a "source latent." The source latents are concatenated and our diffusion model learns this joint latent space. This approach significantly enhances the total and partial generation of music by leveraging the VAE's latent compression and noise-robustness. The compressed source latent also facilitates more efficient generation. Subjective listening tests and Frechet Audio Distance (FAD) scores confirm that our model outperforms MSDM, showcasing its practical and enhanced applicability in music generation systems. We also emphasize that modeling sources is more effective than direct music mixture modeling. Codes and models are available at https://github.com/XZWY/MSLDM. Demos are available at https://xzwy.github.io/MSLDMDemo/.
- Abstract(参考訳): ほとんどの音楽生成モデルは、直接1つの音楽ミックスを生成する。
より柔軟で制御しやすい生成を可能にするため、マルチソース拡散モデル (MSDM) は複数の楽器源(例えばピアノ、ドラム、ベース、ギター)の混合として音楽をモデル化するために提案されている。
その目標は、1つの拡散モデルを使って相互に整合した音楽ソースを生成し、それを混合して音楽を形成することである。
その能力にもかかわらず、MSDMは豊かな旋律で音楽を生成することができず、しばしば空の音を生成する。
その波形拡散アプローチは、オーディオ品質を損なうガウス的なノイズアーティファクトも導入している。
そこで我々は,変分オートエンコーダ(VAE)を用いて,各楽器の音源を別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。
全ての音楽ソースでVAEを訓練することにより、各ソースの特徴を「ソース潜在」で効率的に捉えることができる。
ソースラテントは連結され、我々の拡散モデルは、このジョイントラテント空間を学習する。
このアプローチは、VAEの潜在圧縮とノイズロス性を活用することにより、音楽の総生成と部分生成を著しく向上させる。
圧縮されたソース潜水剤は、より効率的な生成を容易にする。
主観的聴力テストとFrechet Audio Distance(FAD)スコアは、我々のモデルがMSDMより優れており、音楽生成システムにおける実用的で拡張された適用性を示している。
また,音源のモデリングは直接のミックス・モデリングよりも効果的であることも強調した。
コードとモデルはhttps://github.com/XZWY/MSLDM.comで公開されている。
デモはhttps://xzwy.github.io/MSLDMDemo/で公開されている。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models [26.373204974010086]
マルチソース拡散モデル (Multi-Source Diffusion Models, MDM) は、楽曲の合成作業を可能にする。
本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。
本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T12:08:01Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - Msanii: High Fidelity Music Synthesis on a Shoestring Budget [0.0]
我々は,高忠実度音楽の効率的な合成のための新しい拡散モデルであるMsaniiを提案する。
本モデルでは,メルスペクトログラムの合成,拡散モデルの生成能力,ニューラルヴォコーダのヴォコーダのヴォコーダ機能を組み合わせた。
論文 参考訳(メタデータ) (2023-01-16T15:18:26Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Unsupervised Source Separation By Steering Pretrained Music Models [15.847814664948013]
本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
論文 参考訳(メタデータ) (2021-10-25T16:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。