論文の概要: GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework
- arxiv url: http://arxiv.org/abs/2305.10841v2
- Date: Fri, 29 Sep 2023 11:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 18:44:27.481317
- Title: GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework
- Title(参考訳): GETMusic: 統一表現と拡散フレームワークで任意の音楽トラックを生成する
- Authors: Ang Lv and Xu Tan and Peiling Lu and Wei Ye and Shikun Zhang and Jiang
Bian and Rui Yan
- Abstract要約: シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
- 参考スコア(独自算出の注目度): 58.64512825534638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic music generation aims to create musical notes, which can help users
compose music, such as generating target instrument tracks based on provided
source tracks. In practical scenarios where there's a predefined ensemble of
tracks and various composition needs, an efficient and effective generative
model that can generate any target tracks based on the other tracks becomes
crucial. However, previous efforts have fallen short in addressing this
necessity due to limitations in their music representations and models. In this
paper, we introduce a framework known as GETMusic, with ``GET'' standing for
``GEnerate music Tracks.'' This framework encompasses a novel music
representation ``GETScore'' and a diffusion model ``GETDiff.'' GETScore
represents musical notes as tokens and organizes tokens in a 2D structure, with
tracks stacked vertically and progressing horizontally over time. At a training
step, each track of a music piece is randomly selected as either the target or
source. The training involves two processes: In the forward process, target
tracks are corrupted by masking their tokens, while source tracks remain as the
ground truth; in the denoising process, GETDiff is trained to predict the
masked target tokens conditioning on the source tracks. Our proposed
representation, coupled with the non-autoregressive generative model, empowers
GETMusic to generate music with any arbitrary source-target track combinations.
Our experiments demonstrate that the versatile GETMusic outperforms prior works
proposed for certain specific composition tasks.
- Abstract(参考訳): シンボリック・ミュージック・ジェネレーションは、提供されたソース・トラックに基づいてターゲット楽器のトラックを生成するなど、ユーザーが作曲するのに役立つ音楽ノートを作成することを目的としている。
事前定義されたトラックのアンサンブルと様々な構成ニーズがある実用的なシナリオでは、他のトラックに基づいて任意のターゲットトラックを生成できる効率的で効率的な生成モデルが重要になります。
しかし、これまでの努力は、音楽表現やモデルに制限があるため、この必要性に対処するに足りなかった。
本稿では,「GET」を「 Generate music Tracks」の意とする「GETMusic」というフレームワークを紹介する。
''このフレームワークには、新しい音楽表現 ``GETScore'' と拡散モデル ``GETDiff が含まれている。
ゲインコアは音符をトークンとして表現し、2d構造でトークンを整理し、トラックは垂直に積み重ねられ、時間とともに水平方向に進行する。
トレーニングステップでは、楽曲の各トラックをターゲットまたはソースとしてランダムに選択する。
トレーニングには2つのプロセスが含まれる: フォワードプロセスでは、ターゲットのトラックはトークンをマスクすることで破損するが、ソースのトラックは基礎的な真実のままである。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
実験により, GETMusicは, 特定の構成タスクに対して提案された先行作業よりも優れた性能を示した。
関連論文リスト
- MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT [44.204383306879095]
シンボリック・マルチトラック音楽生成に特化して設計された新しいシンボリック・ミュージック表現とジェネレーティブ・アディバーショナル・ネットワーク(GAN)フレームワークを提案する。
頑健なマルチトラック・ミュージック・ジェネレータを構築するため,事前学習したMusicBERTモデルを微調整して判別器として機能し,相対論的標準損失を取り入れた。
論文 参考訳(メタデータ) (2024-09-02T03:18:56Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。