Fugu-MT 論文翻訳(概要): GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

論文の概要: GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

arxiv url: http://arxiv.org/abs/2305.10841v2
Date: Fri, 29 Sep 2023 11:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 18:44:27.481317
Title: GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework
Title（参考訳）: GETMusic: 統一表現と拡散フレームワークで任意の音楽トラックを生成する
Authors: Ang Lv and Xu Tan and Peiling Lu and Wei Ye and Shikun Zhang and Jiang Bian and Rui Yan
Abstract要約: シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
参考スコア（独自算出の注目度）: 58.64512825534638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Symbolic music generation aims to create musical notes, which can help users compose music, such as generating target instrument tracks based on provided source tracks. In practical scenarios where there's a predefined ensemble of tracks and various composition needs, an efficient and effective generative model that can generate any target tracks based on the other tracks becomes crucial. However, previous efforts have fallen short in addressing this necessity due to limitations in their music representations and models. In this paper, we introduce a framework known as GETMusic, with ``GET'' standing for ``GEnerate music Tracks.'' This framework encompasses a novel music representation ``GETScore'' and a diffusion model ``GETDiff.'' GETScore represents musical notes as tokens and organizes tokens in a 2D structure, with tracks stacked vertically and progressing horizontally over time. At a training step, each track of a music piece is randomly selected as either the target or source. The training involves two processes: In the forward process, target tracks are corrupted by masking their tokens, while source tracks remain as the ground truth; in the denoising process, GETDiff is trained to predict the masked target tokens conditioning on the source tracks. Our proposed representation, coupled with the non-autoregressive generative model, empowers GETMusic to generate music with any arbitrary source-target track combinations. Our experiments demonstrate that the versatile GETMusic outperforms prior works proposed for certain specific composition tasks.
Abstract（参考訳）: シンボリック・ミュージック・ジェネレーションは、提供されたソース・トラックに基づいてターゲット楽器のトラックを生成するなど、ユーザーが作曲するのに役立つ音楽ノートを作成することを目的としている。事前定義されたトラックのアンサンブルと様々な構成ニーズがある実用的なシナリオでは、他のトラックに基づいて任意のターゲットトラックを生成できる効率的で効率的な生成モデルが重要になります。しかし、これまでの努力は、音楽表現やモデルに制限があるため、この必要性に対処するに足りなかった。本稿では,「GET」を「 Generate music Tracks」の意とする「GETMusic」というフレームワークを紹介する。 ''このフレームワークには、新しい音楽表現 ``GETScore'' と拡散モデル ``GETDiff が含まれている。ゲインコアは音符をトークンとして表現し、2d構造でトークンを整理し、トラックは垂直に積み重ねられ、時間とともに水平方向に進行する。トレーニングステップでは、楽曲の各トラックをターゲットまたはソースとしてランダムに選択する。トレーニングには2つのプロセスが含まれる: フォワードプロセスでは、ターゲットのトラックはトークンをマスクすることで破損するが、ソースのトラックは基礎的な真実のままである。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。実験により, GETMusicは, 特定の構成タスクに対して提案された先行作業よりも優れた性能を示した。

関連論文リスト

Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-25T12:51:21Z)
MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT [44.204383306879095]
シンボリック・マルチトラック音楽生成に特化して設計された新しいシンボリック・ミュージック表現とジェネレーティブ・アディバーショナル・ネットワーク(GAN)フレームワークを提案する。頑健なマルチトラック・ミュージック・ジェネレータを構築するため,事前学習したMusicBERTモデルを微調整して判別器として機能し,相対論的標準損失を取り入れた。
論文参考訳（メタデータ） (2024-09-02T03:18:56Z)
Unifying Multitrack Music Arrangement via Reconstruction Fine-Tuning and Efficient Tokenization [10.714947060480426]
本稿では,無条件および条件付きシンボル音楽生成のための効率的なマルチトラック音楽トークンについて紹介する。事前学習された音楽用LMのシーケンス・ツー・シーケンス再構成の微調整目的は、タスク固有のニーズとコヒーレンス制約とのバランスをとる。提案手法は,目標と知覚品質の両面において,タスク固有モデルを超え,バンドアレンジメント,ピアノアレンジメント,ドラムアレンジメントの最先端結果を実現する。
論文参考訳（メタデータ） (2024-08-27T16:18:51Z)
LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文参考訳（メタデータ） (2024-06-20T14:02:15Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文参考訳（メタデータ） (2023-10-29T22:51:49Z)
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文参考訳（メタデータ） (2023-08-03T05:35:37Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Comparision Of Adversarial And Non-Adversarial LSTM Music Generative Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文参考訳（メタデータ） (2022-11-01T20:23:49Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文参考訳（メタデータ） (2021-06-10T10:13:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。