論文の概要: Efficient Neural Music Generation
- arxiv url: http://arxiv.org/abs/2305.15719v1
- Date: Thu, 25 May 2023 05:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:25:20.937591
- Title: Efficient Neural Music Generation
- Title(参考訳): 効率的なニューラルミュージック生成
- Authors: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu,
Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan
Wang
- Abstract要約: 本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
- 参考スコア(独自算出の注目度): 42.39082326446739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.
- Abstract(参考訳): 近年,3つのLMの階層構造を持つ最先端のMusicLMによって,意味的,粗い音響的,微妙な音響的モデリングにおいて,音楽生成の進歩が著しく進んでいる。
しかし、musiclmによるサンプリングには、細粒度の音響トークンを取得するために、これらのlmsを1つずつ処理する必要がある。
MusicLMと同等品質の効率的な音楽生成は依然として大きな課題である。
本稿では,MusicLMにおける95.7%,99.6%の前方パスを削減しつつ,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D,拡散用D)を提案する。
メロディは、セマンティクスモデリングのためにmusiclmから最高レベルのlmを継承し、新しいデュアルパス拡散(dpd)モデルとオーディオvae-ganを適用し、コンディショニングセマンティクストークンを波形に効率的に復号する。
DPDは, 各聴覚ステップにおいて, 係り受けのセグメントに意味情報を効果的に組み込むことにより, 粗音と微音を同時にモデル化することを提案する。
実験結果から,サンプリング速度と無限連続生成におけるMeLoDyの実用的優位性だけでなく,最先端の音楽性,音質,テキスト相関性にも優位性があることが示唆された。
サンプルはhttps://Efficient-MeLoDy.github.io/で公開しています。
関連論文リスト
- Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation [46.301388755267986]
本稿では,高品質な学習戦略を取り入れた高品質音楽生成のための新しいパラダイムを提案する。
我々はまず,TTMタスクにマスク付き拡散トランスフォーマー(MDT)モデルを適用し,その品質管理能力と音楽性の向上を実証した。
実験では、MusicCapsとSong-Describerデータセット上でのSOTA(State-of-the-art)のパフォーマンスを実証した。
論文 参考訳(メタデータ) (2024-05-24T18:09:27Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。