論文の概要: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
- arxiv url: http://arxiv.org/abs/2405.15863v1
- Date: Fri, 24 May 2024 18:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:20:04.370726
- Title: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
- Title(参考訳): 高性能音楽生成のための品質を考慮したマスク付き拡散変圧器
- Authors: Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang,
- Abstract要約: そこで我々は,QA-MDT(Quality-Aware masked diffusion transformer)アプローチを導入し,学習中の入力音楽波形の質を明らかにする。
音楽信号のユニークな特性に基づいて,TTMタスクにMDTモデルを適用し,実装した。
また,キャプション改良データ処理手法により,低品質キャプションの問題にも対処する。
- 参考スコア(独自算出の注目度): 46.301388755267986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diffusion-based text-to-music (TTM) generation has gained prominence, offering a novel approach to synthesizing musical content from textual descriptions. Achieving high accuracy and diversity in this generation process requires extensive, high-quality data, which often constitutes only a fraction of available datasets. Within open-source datasets, the prevalence of issues like mislabeling, weak labeling, unlabeled data, and low-quality music waveform significantly hampers the development of music generation models. To overcome these challenges, we introduce a novel quality-aware masked diffusion transformer (QA-MDT) approach that enables generative models to discern the quality of input music waveform during training. Building on the unique properties of musical signals, we have adapted and implemented a MDT model for TTM task, while further unveiling its distinct capacity for quality control. Moreover, we address the issue of low-quality captions with a caption refinement data processing approach. Our demo page is shown in https://qa-mdt.github.io/. Code on https://github.com/ivcylc/qa-mdt
- Abstract(参考訳): 近年,拡散型テキスト・ツー・ミュージック(TTM)生成が注目され,テキスト記述から音楽コンテンツを合成する新たなアプローチが提案されている。
この生成プロセスで高い精度と多様性を達成するには、広範囲で高品質なデータが必要である。
オープンソースのデータセットの中では、誤ラベル、弱いラベル付け、未ラベルデータ、低品質の音楽波形といった問題が、音楽生成モデルの発展を著しく妨げている。
これらの課題を克服するために、我々は、学習中に入力された音楽波形の質を識別する生成モデルを実現する、QA-MDT(Quality-Aware masked diffusion transformer)アプローチを導入する。
音楽信号の独特な特性に基づいて,TTMタスクにMDTモデルを適用,実装するとともに,その品質管理能力も明らかにした。
さらに,キャプション改良データ処理手法を用いて,低品質キャプションの問題に対処する。
私たちのデモページはhttps://qa-mdt.github.io/で公開されています。
https://github.com/ivcylc/qa-mdt
関連論文リスト
- Symbolic Music Generation with Fine-grained Interactive Textural Guidance [13.052085651071135]
拡散モデルにFTGを導入し,学習した分布の誤差を補正する。
シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。
ユーザ入力によるインタラクティブな音楽生成のためのデモページを提供し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-11T00:41:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。