Fugu-MT 論文翻訳(概要): Multi-Source Music Generation with Latent Diffusion

論文の概要: Multi-Source Music Generation with Latent Diffusion

arxiv url: http://arxiv.org/abs/2409.06190v1
Date: Tue, 10 Sep 2024 03:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:10:55.564613
Title: Multi-Source Music Generation with Latent Diffusion
Title（参考訳）: 遅延拡散を用いたマルチソース音楽生成
Authors: Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury,
Abstract要約: マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。 MSDMはリッチな旋律で曲を生成することができず、しばしば空の音を生成する。本稿では,変分オートエンコーダ(VAEs)を用いて,各楽器ソースを別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。
参考スコア（独自算出の注目度）: 7.832209959041259
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most music generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g., piano, drums, bass, and guitar). Its goal is to use one single diffusion model to generate consistent music sources, which are further mixed to form the music. Despite its capabilities, MSDM is unable to generate songs with rich melodies and often generates empty sounds. Also, its waveform diffusion introduces significant Gaussian noise artifacts, which compromises audio quality. In response, we introduce a multi-source latent diffusion model (MSLDM) that employs Variational Autoencoders (VAEs) to encode each instrumental source into a distinct latent representation. By training a VAE on all music sources, we efficiently capture each source's unique characteristics in a source latent that our diffusion model models jointly. This approach significantly enhances the total and partial generation of music by leveraging the VAE's latent compression and noise-robustness. The compressed source latent also facilitates more efficient generation. Subjective listening tests and Frechet Audio Distance (FAD) scores confirm that our model outperforms MSDM, showcasing its practical and enhanced applicability in music generation systems. We also emphasize that modeling sources is more effective than direct music mixture modeling. Codes and models are available at https://github.com/XZWY/MSLDM. Demos are available at https://xzwy.github.io/MSLDMDemo.
Abstract（参考訳）: ほとんどの音楽生成モデルは、直接1つの音楽ミックスを生成する。より柔軟で制御可能な生成を可能にするため、マルチソース拡散モデル(MSDM)は、複数の楽器源(例えば、ピアノ、ドラム、ベース、ギター)の混合として音楽をモデル化するために提案されている。その目標は、1つの拡散モデルを使用して一貫した音楽ソースを生成し、さらに混合して音楽を形成することである。その能力にもかかわらず、MSDMはリッチな旋律で曲を生成することができず、しばしば空の音を生成する。また、波形拡散はガウス的なノイズアーティファクトを導入し、音質を損なう。そこで我々は,変分オートエンコーダ(VAE)を用いて,各楽器の音源を別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。全ての音源でVAEを訓練することにより、拡散モデルが協調してモデル化される音源において、各音源の特徴を効率的に捉えることができる。このアプローチは、VAEの潜在圧縮とノイズロス性を活用することにより、音楽の総生成と部分生成を著しく向上させる。圧縮されたソース潜水剤は、より効率的な生成を容易にする。主観的聴力テストとFrechet Audio Distance(FAD)スコアは、我々のモデルがMSDMより優れており、音楽生成システムにおける実用的で拡張された適用性を示している。また,音源のモデリングは直接のミックス・モデリングよりも効果的であることも強調した。コードとモデルはhttps://github.com/XZWY/MSLDM.comで公開されている。デモはhttps://xzwy.github.io/MSLDMDemo.comで公開されている。

関連論文リスト

LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。 LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-09T07:57:24Z)
AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文参考訳（メタデータ） (2025-03-13T16:30:59Z)
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文参考訳（メタデータ） (2025-03-06T16:53:14Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models [26.373204974010086]
マルチソース拡散モデル (Multi-Source Diffusion Models, MDM) は、楽曲の合成作業を可能にする。本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
論文参考訳（メタデータ） (2024-03-18T12:08:01Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。 MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文参考訳（メタデータ） (2023-05-25T05:02:35Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文参考訳（メタデータ） (2023-01-27T14:52:53Z)
Msanii: High Fidelity Music Synthesis on a Shoestring Budget [0.0]
我々は,高忠実度音楽の効率的な合成のための新しい拡散モデルであるMsaniiを提案する。本モデルでは,メルスペクトログラムの合成,拡散モデルの生成能力,ニューラルヴォコーダのヴォコーダのヴォコーダ機能を組み合わせた。
論文参考訳（メタデータ） (2023-01-16T15:18:26Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Unsupervised Source Separation By Steering Pretrained Music Models [15.847814664948013]
本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
論文参考訳（メタデータ） (2021-10-25T16:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。