論文の概要: GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework
- arxiv url: http://arxiv.org/abs/2305.10841v1
- Date: Thu, 18 May 2023 09:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:54:08.511497
- Title: GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework
- Title(参考訳): GETMusic: 統一表現と拡散フレームワークで任意の音楽トラックを生成する
- Authors: Ang Lv and Xu Tan and Peiling Lu and Wei Ye and Shikun Zhang and Jiang
Bian and Rui Yan
- Abstract要約: シンボリック・ミュージック・ジェネレーションは、スクラッチからターゲットのインストゥルメンタル・トラックを生成したり、ユーザーが提供するソース・トラックに基づいて音符を作成することを目的としている。
本稿では、GETScoreという新しい音楽表現を含むGETMusicという統一表現・拡散フレームワークを提案する。
6曲の楽器トラックを含む音楽生成実験を行い,合計665曲を合成した。
- 参考スコア(独自算出の注目度): 45.8513668411011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic music generation aims to create musical notes, which can help users
compose music, such as generating target instrumental tracks from scratch, or
based on user-provided source tracks. Considering the diverse and flexible
combination between source and target tracks, a unified model capable of
generating any arbitrary tracks is of crucial necessity. Previous works fail to
address this need due to inherent constraints in music representations and
model architectures. To address this need, we propose a unified representation
and diffusion framework named GETMusic (`GET' stands for GEnerate music
Tracks), which includes a novel music representation named GETScore, and a
diffusion model named GETDiff. GETScore represents notes as tokens and
organizes them in a 2D structure, with tracks stacked vertically and
progressing horizontally over time. During training, tracks are randomly
selected as either the target or source. In the forward process, target tracks
are corrupted by masking their tokens, while source tracks remain as ground
truth. In the denoising process, GETDiff learns to predict the masked target
tokens, conditioning on the source tracks. With separate tracks in GETScore and
the non-autoregressive behavior of the model, GETMusic can explicitly control
the generation of any target tracks from scratch or conditioning on source
tracks. We conduct experiments on music generation involving six instrumental
tracks, resulting in a total of 665 combinations. GETMusic provides
high-quality results across diverse combinations and surpasses prior works
proposed for some specific combinations.
- Abstract(参考訳): シンボリック・ミュージック・ジェネレーションは、ユーザがスクラッチからターゲット楽器のトラックを生成する、あるいはユーザが提供するソースのトラックに基づいて、ユーザが作曲するのに役立つ音楽ノートを作成することを目的としている。
ソーストラックとターゲットトラックの多様で柔軟な組み合わせを考えると、任意のトラックを生成することができる統一モデルが不可欠である。
以前の作品は、音楽表現やモデルアーキテクチャに固有の制約があるため、このニーズに対処できなかった。
このニーズに対処するため,新しい音楽表現であるGETScoreやGETDiffという拡散モデルを含むGETMusic(「GET」はGEnerate Music Tracksの略)という統一表現・拡散フレームワークを提案する。
GETScoreはトークンとしてメモを表現し、2D構造でそれらを整理する。
トレーニング中、トラックはターゲットまたはソースとしてランダムに選択される。
フォワードプロセスでは、ターゲットトラックはトークンを隠蔽することで破損するが、ソーストラックは土台として残る。
Denoisingプロセスでは、GETDiffは、ターゲットトークンがマスクされていることを予測し、ソーストラックに条件付けする。
GETScoreの別々のトラックとモデルの非自己回帰的な振る舞いにより、GETMusicはソーストラックのスクラッチや条件付けから、任意のターゲットトラックの生成を明示的に制御できる。
6曲のインストゥルメンタル・トラックを用いた音楽生成実験を行い,合計665曲のコンビネーションを行った。
getmusicはさまざまなコンビネーションで高品質な結果を提供し、特定のコンビネーションで提案された先行作品を上回っています。
関連論文リスト
- MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT [44.204383306879095]
シンボリック・マルチトラック音楽生成に特化して設計された新しいシンボリック・ミュージック表現とジェネレーティブ・アディバーショナル・ネットワーク(GAN)フレームワークを提案する。
頑健なマルチトラック・ミュージック・ジェネレータを構築するため,事前学習したMusicBERTモデルを微調整して判別器として機能し,相対論的標準損失を取り入れた。
論文 参考訳(メタデータ) (2024-09-02T03:18:56Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。