論文の概要: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
- arxiv url: http://arxiv.org/abs/2405.15863v1
- Date: Fri, 24 May 2024 18:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:20:04.370726
- Title: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
- Title(参考訳): 高性能音楽生成のための品質を考慮したマスク付き拡散変圧器
- Authors: Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang,
- Abstract要約: そこで我々は,QA-MDT(Quality-Aware masked diffusion transformer)アプローチを導入し,学習中の入力音楽波形の質を明らかにする。
音楽信号のユニークな特性に基づいて,TTMタスクにMDTモデルを適用し,実装した。
また,キャプション改良データ処理手法により,低品質キャプションの問題にも対処する。
- 参考スコア(独自算出の注目度): 46.301388755267986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diffusion-based text-to-music (TTM) generation has gained prominence, offering a novel approach to synthesizing musical content from textual descriptions. Achieving high accuracy and diversity in this generation process requires extensive, high-quality data, which often constitutes only a fraction of available datasets. Within open-source datasets, the prevalence of issues like mislabeling, weak labeling, unlabeled data, and low-quality music waveform significantly hampers the development of music generation models. To overcome these challenges, we introduce a novel quality-aware masked diffusion transformer (QA-MDT) approach that enables generative models to discern the quality of input music waveform during training. Building on the unique properties of musical signals, we have adapted and implemented a MDT model for TTM task, while further unveiling its distinct capacity for quality control. Moreover, we address the issue of low-quality captions with a caption refinement data processing approach. Our demo page is shown in https://qa-mdt.github.io/. Code on https://github.com/ivcylc/qa-mdt
- Abstract(参考訳): 近年,拡散型テキスト・ツー・ミュージック(TTM)生成が注目され,テキスト記述から音楽コンテンツを合成する新たなアプローチが提案されている。
この生成プロセスで高い精度と多様性を達成するには、広範囲で高品質なデータが必要である。
オープンソースのデータセットの中では、誤ラベル、弱いラベル付け、未ラベルデータ、低品質の音楽波形といった問題が、音楽生成モデルの発展を著しく妨げている。
これらの課題を克服するために、我々は、学習中に入力された音楽波形の質を識別する生成モデルを実現する、QA-MDT(Quality-Aware masked diffusion transformer)アプローチを導入する。
音楽信号の独特な特性に基づいて,TTMタスクにMDTモデルを適用,実装するとともに,その品質管理能力も明らかにした。
さらに,キャプション改良データ処理手法を用いて,低品質キャプションの問題に対処する。
私たちのデモページはhttps://qa-mdt.github.io/で公開されています。
https://github.com/ivcylc/qa-mdt
関連論文リスト
- YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
YourMT3+は、MT3の最近の言語トークンデコードアプローチに基づいた、マルチストラクチャメント音楽の書き起こし強化のためのモデルのセットである。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。