Fugu-MT 論文翻訳(概要): Learning Interpretable Representation for Controllable Polyphonic Music Generation

論文の概要: Learning Interpretable Representation for Controllable Polyphonic Music Generation

arxiv url: http://arxiv.org/abs/2008.07122v1
Date: Mon, 17 Aug 2020 07:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 03:16:40.492825
Title: Learning Interpretable Representation for Controllable Polyphonic Music Generation
Title（参考訳）: 制御可能なポリフォニック音楽生成のための学習解釈可能表現
Authors: Ziyu Wang, Dingsu Wang, Yixiao Zhang, Gus Xia
Abstract要約: 我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
参考スコア（独自算出の注目度）: 5.01266258109807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While deep generative models have become the leading methods for algorithmic composition, it remains a challenging problem to control the generation process because the latent variables of most deep-learning models lack good interpretability. Inspired by the content-style disentanglement idea, we design a novel architecture, under the VAE framework, that effectively learns two interpretable latent factors of polyphonic music: chord and texture. The current model focuses on learning 8-beat long piano composition segments. We show that such chord-texture disentanglement provides a controllable generation pathway leading to a wide spectrum of applications, including compositional style transfer, texture variation, and accompaniment arrangement. Both objective and subjective evaluations show that our method achieves a successful disentanglement and high quality controlled music generation.
Abstract（参考訳）: 深層生成モデルはアルゴリズム合成の主要な手法となっているが、ほとんどの深層学習モデルの潜在変数は良好な解釈性に欠けるため、生成過程を制御することは依然として困難である。コンテントスタイルのアンタングル化のアイデアに触発された我々は,ポリフォニック音楽の2つの解釈可能な潜在要因である和音とテクスチャを効果的に学習する,VAEフレームワークの下で,新しいアーキテクチャを設計する。現在のモデルは8拍子長のピアノ作曲セグメントの学習に重点を置いている。このようなコード・テクスチャ・ディコンタングルメントは,構成スタイルの伝達,テクスチャの変動,伴奏の配置など,幅広い応用につながる制御可能な生成経路を提供することを示す。客観評価と主観評価の両方で,本手法は,歪みと高品質な音楽生成を実現する。

関連論文リスト

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation [32.05517352929237]
最先端システム(SOTA)は、トレーニングデータセット、モデリングパラダイム、アーキテクチャ選択など、多くの領域で大きく異なる。本研究はモデリングパラダイムにのみ焦点をあてる。自動回帰デコーディングと条件付きフローマッチングという,最も一般的な2つのモデリングパラダイムを比較した。
論文参考訳（メタデータ） (2025-06-10T08:37:45Z)
LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。 LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-09T07:57:24Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文参考訳（メタデータ） (2025-02-06T21:45:38Z)
An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2024-09-10T08:07:43Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic Music Generation [2.8062498505437055]
音楽構造をモデル化することは、シンボリック・ミュージック・コンポジションを生成する人工知能システムにとって重要な課題である。本稿では,コヒーレント構造を取り入れた手法の進化を概観する。我々は,すべての時代のアプローチを組み合わせることによる相乗効果を実現するために,いくつかの重要な方向性を概説する。
論文参考訳（メタデータ） (2024-03-12T18:03:08Z)
Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling [9.489311894706765]
本稿では,これらの課題に対処するために,不整合型因子に対する事前モデリングを活用する新しいシステムを提案する。私たちのキーとなる設計は、ベクトル量子化と、オーケストレーションスタイルの長期フローをモデル化するためのユニークなマルチストリームトランスの使用です。本システムでは,既存のベースラインに比べて,コヒーレンス,構造,全体的な配置品質が優れていることを示す。
論文参考訳（メタデータ） (2023-10-25T03:30:37Z)
CoCoFormer: A controllable feature-rich polyphonic music generation method [2.501600004190393]
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御するコンディション合唱変換器(CoCoFormer)を提案する。本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
論文参考訳（メタデータ） (2023-10-15T14:04:48Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Composer: Creative and Controllable Image Synthesis with Composable Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文参考訳（メタデータ） (2023-02-20T05:48:41Z)
Is Disentanglement enough? On Latent Representations for Controllable Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。 VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文参考訳（メタデータ） (2021-08-01T18:37:43Z)
Generating Lead Sheets with Affect: A Novel Conditional seq2seq Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文参考訳（メタデータ） (2021-04-27T09:04:21Z)
A framework to compare music generative models using automatic evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文参考訳（メタデータ） (2021-01-19T15:04:46Z)
RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文参考訳（メタデータ） (2020-02-08T03:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。