論文の概要: PopMAG: Pop Music Accompaniment Generation
- arxiv url: http://arxiv.org/abs/2008.07703v1
- Date: Tue, 18 Aug 2020 02:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:23:18.337085
- Title: PopMAG: Pop Music Accompaniment Generation
- Title(参考訳): popmag:pop musicの伴奏世代
- Authors: Yi Ren, Jinzheng He, Xu Tan, Tao Qin, Zhou Zhao, Tie-Yan Liu
- Abstract要約: 単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
- 参考スコア(独自算出の注目度): 190.09996798215738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In pop music, accompaniments are usually played by multiple instruments
(tracks) such as drum, bass, string and guitar, and can make a song more
expressive and contagious by arranging together with its melody. Previous works
usually generate multiple tracks separately and the music notes from different
tracks not explicitly depend on each other, which hurts the harmony modeling.
To improve harmony, in this paper, we propose a novel MUlti-track MIDI
representation (MuMIDI), which enables simultaneous multi-track generation in a
single sequence and explicitly models the dependency of the notes from
different tracks. While this greatly improves harmony, unfortunately, it
enlarges the sequence length and brings the new challenge of long-term music
modeling. We further introduce two new techniques to address this challenge: 1)
We model multiple note attributes (e.g., pitch, duration, velocity) of a
musical note in one step instead of multiple steps, which can shorten the
length of a MuMIDI sequence. 2) We introduce extra long-context as memory to
capture long-term dependency in music. We call our system for pop music
accompaniment generation as PopMAG. We evaluate PopMAG on multiple datasets
(LMD, FreeMidi and CPMD, a private dataset of Chinese pop songs) with both
subjective and objective metrics. The results demonstrate the effectiveness of
PopMAG for multi-track harmony modeling and long-term context modeling.
Specifically, PopMAG wins 42\%/38\%/40\% votes when comparing with ground truth
musical pieces on LMD, FreeMidi and CPMD datasets respectively and largely
outperforms other state-of-the-art music accompaniment generation models and
multi-track MIDI representations in terms of subjective and objective metrics.
- Abstract(参考訳): ポップ音楽では、伴奏は通常、ドラム、ベース、弦楽、ギターといった複数の楽器(曲)で演奏され、メロディと一緒に並べることでより表現力があり、伝染性のある曲を作ることができる。
以前の作品では、複数のトラックを別々に生成し、異なるトラックからの音符は互いに明示的に依存せず、調和モデリングを損なう。
調和性を改善するため,本論文では,単一シーケンスでの同時マルチトラック生成を可能にするMUlti-track MIDI表現(MuMIDI)を提案し,異なるトラックからの音符の依存性を明示的にモデル化する。
これはハーモニーを大幅に改善するが、残念ながらシーケンス長を大きくし、長期的な音楽モデリングの新しい課題をもたらす。
さらに、この問題に対処する2つの新しいテクニックを紹介します。
1) 複数のステップではなく音符の複数の属性(例えば、ピッチ、持続時間、速度)を1ステップでモデル化し、MuMIDIシーケンスの長さを短縮する。
2)音楽の長期依存を捉えるため,メモリとして長期コンテキストを導入する。
当社ではpop music accompaniment generation を popmag と呼んでいる。
複数のデータセット(lmd、freemidi、cpmd、中国のポップソングのプライベートデータセット)でpopmagを主観的および客観的な指標で評価した。
その結果,複数トラック調和モデルと長期コンテキストモデリングにおけるPopMAGの有効性が示された。
特に、PopMAGは、LMD、FreeMidi、CPMDの楽曲と比較すると42\%/38\%/40\%の得票率を獲得し、主観的および客観的な指標から、他の最先端の音楽伴奏生成モデルやマルチトラックMIDI表現よりも大きく優れている。
関連論文リスト
- Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation [39.892059799407434]
MelodyGLMは長期構造を持つメロディを生成するためのマルチタスク事前学習フレームワークである。
我々は,0.4百万以上のメロディを含む大規模な記号的メロディデータセットMelodyNetを構築した。
論文 参考訳(メタデータ) (2023-09-19T16:34:24Z) - InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-28T07:11:42Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。