論文の概要: Learning Interpretable Representation for Controllable Polyphonic Music
Generation
- arxiv url: http://arxiv.org/abs/2008.07122v1
- Date: Mon, 17 Aug 2020 07:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:16:40.492825
- Title: Learning Interpretable Representation for Controllable Polyphonic Music
Generation
- Title(参考訳): 制御可能なポリフォニック音楽生成のための学習解釈可能表現
- Authors: Ziyu Wang, Dingsu Wang, Yixiao Zhang, Gus Xia
- Abstract要約: 我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
- 参考スコア(独自算出の注目度): 5.01266258109807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep generative models have become the leading methods for algorithmic
composition, it remains a challenging problem to control the generation process
because the latent variables of most deep-learning models lack good
interpretability. Inspired by the content-style disentanglement idea, we design
a novel architecture, under the VAE framework, that effectively learns two
interpretable latent factors of polyphonic music: chord and texture. The
current model focuses on learning 8-beat long piano composition segments. We
show that such chord-texture disentanglement provides a controllable generation
pathway leading to a wide spectrum of applications, including compositional
style transfer, texture variation, and accompaniment arrangement. Both
objective and subjective evaluations show that our method achieves a successful
disentanglement and high quality controlled music generation.
- Abstract(参考訳): 深層生成モデルはアルゴリズム合成の主要な手法となっているが、ほとんどの深層学習モデルの潜在変数は良好な解釈性に欠けるため、生成過程を制御することは依然として困難である。
コンテントスタイルのアンタングル化のアイデアに触発された我々は,ポリフォニック音楽の2つの解釈可能な潜在要因である和音とテクスチャを効果的に学習する,VAEフレームワークの下で,新しいアーキテクチャを設計する。
現在のモデルは8拍子長のピアノ作曲セグメントの学習に重点を置いている。
このようなコード・テクスチャ・ディコンタングルメントは,構成スタイルの伝達,テクスチャの変動,伴奏の配置など,幅広い応用につながる制御可能な生成経路を提供することを示す。
客観評価と主観評価の両方で,本手法は,歪みと高品質な音楽生成を実現する。
関連論文リスト
- Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic
Music Generation [2.8062498505437055]
音楽構造をモデル化することは、シンボリック・ミュージック・コンポジションを生成する人工知能システムにとって重要な課題である。
本稿では,コヒーレント構造を取り入れた手法の進化を概観する。
我々は,すべての時代のアプローチを組み合わせることによる相乗効果を実現するために,いくつかの重要な方向性を概説する。
論文 参考訳(メタデータ) (2024-03-12T18:03:08Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [54.51336524107044]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - CoCoFormer: A controllable feature-rich polyphonic music generation
method [2.501600004190393]
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御するコンディション合唱変換器(CoCoFormer)を提案する。
本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
論文 参考訳(メタデータ) (2023-10-15T14:04:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale
Self-supervised Training [75.41299558334129]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Music Generation with Temporal Structure Augmentation [0.0]
提案手法は,歌の結末をカウントダウンしたコネクショニスト生成モデルと,余分な入力特徴としてメーターマーカーを付加する。
LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習設定でノッティンガムフォークミュージックデータセットに基づいて訓練される。
実験では、両方のアノテーションの予測性能が改善された。
論文 参考訳(メタデータ) (2020-04-21T19:19:58Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。