論文の概要: MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE
- arxiv url: http://arxiv.org/abs/2105.04090v1
- Date: Mon, 10 May 2021 03:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 01:12:28.563847
- Title: MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE
- Title(参考訳): MuseMorphose: 1つのトランスフォーマーVAEでフルソングとファイングラインド音楽スタイルのトランスファー
- Authors: Shih-Lun Wu, Yi-Hsuan Yang
- Abstract要約: トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
- 参考スコア(独自算出の注目度): 36.9033909878202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and variational autoencoders (VAE) have been extensively
employed for symbolic (e.g., MIDI) domain music generation. While the former
boast an impressive capability in modeling long sequences, the latter allow
users to willingly exert control over different parts (e.g., bars) of the music
to be generated. In this paper, we are interested in bringing the two together
to construct a single model that exhibits both strengths. The task is split
into two steps. First, we equip Transformer decoders with the ability to accept
segment-level, time-varying conditions during sequence generation.
Subsequently, we combine the developed and tested in-attention decoder with a
Transformer encoder, and train the resulting MuseMorphose model with the VAE
objective to achieve style transfer of long musical pieces, in which users can
specify musical attributes including rhythmic intensity and polyphony (i.e.,
harmonic fullness) they desire, down to the bar level. Experiments show that
MuseMorphose outperforms recurrent neural network (RNN) based prior art on
numerous widely-used metrics for style transfer tasks.
- Abstract(参考訳): トランスフォーマーと変分オートエンコーダ(VAE)は、シンボリックな(例えばMIDI)ドメイン音楽生成に広く使われている。
前者は長いシーケンスのモデリングにおいて印象的な能力を持っているが、後者はユーザーが自由に音楽の異なる部分(例えばバー)を制御できるようにする。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
タスクは2つのステップに分割される。
まず,トランスフォーマーデコーダをシーケンス生成中にセグメントレベル,時間変化条件を受信する機能を備える。
その後、開発したインタテンション・デコーダとトランスフォーマエンコーダを組み合わせることで、得られたミューズモルフォースモデルとvaeの目的を訓練し、長い楽曲のスタイル転送を実現し、ユーザが望むリズミカル強度やポリフォニー(ハーモニック・フルネス)などの音楽属性をバーレベルまで指定できるようにする。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - MAGMA: Music Aligned Generative Motion Autodecoder [15.825872274297735]
VQ-VAE(Vector Quantized-Variational Autoencoder)を用いた2段階のダンス生成手法を提案する。
リブロサを用いたナイーブな音楽特徴抽出と、最先端の音声圧縮アルゴリズムによって生成されたディープオーディオ表現を比較することで、音楽表現の重要性を評価する。
提案手法は,音楽対モーション生成ベンチマークの最先端結果を実現し,より長い動き列をリアルタイムに生成することを可能にする。
論文 参考訳(メタデータ) (2023-09-03T15:21:47Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。