論文の概要: Learning Interpretable Representation for Controllable Polyphonic Music
Generation
- arxiv url: http://arxiv.org/abs/2008.07122v1
- Date: Mon, 17 Aug 2020 07:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:16:40.492825
- Title: Learning Interpretable Representation for Controllable Polyphonic Music
Generation
- Title(参考訳): 制御可能なポリフォニック音楽生成のための学習解釈可能表現
- Authors: Ziyu Wang, Dingsu Wang, Yixiao Zhang, Gus Xia
- Abstract要約: 我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
- 参考スコア(独自算出の注目度): 5.01266258109807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep generative models have become the leading methods for algorithmic
composition, it remains a challenging problem to control the generation process
because the latent variables of most deep-learning models lack good
interpretability. Inspired by the content-style disentanglement idea, we design
a novel architecture, under the VAE framework, that effectively learns two
interpretable latent factors of polyphonic music: chord and texture. The
current model focuses on learning 8-beat long piano composition segments. We
show that such chord-texture disentanglement provides a controllable generation
pathway leading to a wide spectrum of applications, including compositional
style transfer, texture variation, and accompaniment arrangement. Both
objective and subjective evaluations show that our method achieves a successful
disentanglement and high quality controlled music generation.
- Abstract(参考訳): 深層生成モデルはアルゴリズム合成の主要な手法となっているが、ほとんどの深層学習モデルの潜在変数は良好な解釈性に欠けるため、生成過程を制御することは依然として困難である。
コンテントスタイルのアンタングル化のアイデアに触発された我々は,ポリフォニック音楽の2つの解釈可能な潜在要因である和音とテクスチャを効果的に学習する,VAEフレームワークの下で,新しいアーキテクチャを設計する。
現在のモデルは8拍子長のピアノ作曲セグメントの学習に重点を置いている。
このようなコード・テクスチャ・ディコンタングルメントは,構成スタイルの伝達,テクスチャの変動,伴奏の配置など,幅広い応用につながる制御可能な生成経路を提供することを示す。
客観評価と主観評価の両方で,本手法は,歪みと高品質な音楽生成を実現する。
関連論文リスト
- An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。
この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。
そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:07:43Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic
Music Generation [2.8062498505437055]
音楽構造をモデル化することは、シンボリック・ミュージック・コンポジションを生成する人工知能システムにとって重要な課題である。
本稿では,コヒーレント構造を取り入れた手法の進化を概観する。
我々は,すべての時代のアプローチを組み合わせることによる相乗効果を実現するために,いくつかの重要な方向性を概説する。
論文 参考訳(メタデータ) (2024-03-12T18:03:08Z) - Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling [9.489311894706765]
本稿では,これらの課題に対処するために,不整合型因子に対する事前モデリングを活用する新しいシステムを提案する。
私たちのキーとなる設計は、ベクトル量子化と、オーケストレーションスタイルの長期フローをモデル化するためのユニークなマルチストリームトランスの使用です。
本システムでは,既存のベースラインに比べて,コヒーレンス,構造,全体的な配置品質が優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:30:37Z) - CoCoFormer: A controllable feature-rich polyphonic music generation
method [2.501600004190393]
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御するコンディション合唱変換器(CoCoFormer)を提案する。
本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
論文 参考訳(メタデータ) (2023-10-15T14:04:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。