Fugu-MT 論文翻訳(概要): MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

論文の概要: MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

arxiv url: http://arxiv.org/abs/2308.01546v1
Date: Thu, 3 Aug 2023 05:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 15:17:59.290965
Title: MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
Title（参考訳）: MusicLDM:Beats-Synchronous Mixup Strategies を用いたテキスト・音楽生成におけるノベルティ向上
Authors: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
Abstract要約: 我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
参考スコア（独自算出の注目度）: 32.482588500419006
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music.
Abstract（参考訳）: 拡散モデルは、テキストから画像への生成やテキストから音声への生成を含む、クロスモーダル生成タスクにおいて有望な結果を示している。しかし、音楽は特別なタイプのオーディオとして、音楽データの入手が限られており、著作権や盗作にまつわるセンシティブな問題が生じる。本稿では,これらの課題に対処するため,まず,安定拡散とオーディオLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、音楽データサンプルのコレクション上で、コントラッシブ言語-オーディオ事前学習モデル(CLAP)とHifi-GANボコーダをMusicLDMのコンポーネントとして再訓練することで、これを実現する。次に、トレーニングデータの制限に対処し、盗作を避けるために、ビートトラッキングモデルを利用し、データ拡張のための2つの異なるミックスアップ戦略を提案する:ビート同期オーディオミックスアップとビート同期潜在ミックスアップであり、それぞれ、トレーニングオーディオを直接または潜在埋め込み空間を介して再結合する。このようなミックスアップ戦略は、モデルのトレーニングサンプル間を補間し、トレーニングデータの凸包内で新しい音楽を生成することを奨励し、生成された音楽は対応するスタイルに忠実に保たれながら、より多様なものにする。一般的な評価指標に加えて,CLAPスコアに基づく新たな評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質と新規性,および入力テキストと生成された音楽の対応性を改善することを示す。

関連論文リスト

Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-25T12:51:21Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models [0.0]
本研究では,ラテント拡散モデル(LDM)を用いたドラムビート生成のためのテキスト条件付き手法を提案する。マルチモーダルネットワーク内のコントラスト学習を通じてテキストとドラムのエンコーダを事前学習することにより,テキストと音楽のモダリティを密に調整する。生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
論文参考訳（メタデータ） (2024-08-05T13:23:05Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文参考訳（メタデータ） (2024-06-20T14:02:15Z)
QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation [46.301388755267986]
本稿では,高品質な学習戦略を取り入れた高品質音楽生成のための新しいパラダイムを提案する。我々はまず,TTMタスクにマスク付き拡散トランスフォーマー(MDT)モデルを適用し,その品質管理能力と音楽性の向上を実証した。実験では、MusicCapsとSong-Describerデータセット上でのSOTA(State-of-the-art)のパフォーマンスを実証した。
論文参考訳（メタデータ） (2024-05-24T18:09:27Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。